CN107678560B - 输入法的候选结果生成方法及装置、存储介质、电子设备 - Google Patents

输入法的候选结果生成方法及装置、存储介质、电子设备 Download PDF

Info

Publication number
CN107678560B
CN107678560B CN201710774622.3A CN201710774622A CN107678560B CN 107678560 B CN107678560 B CN 107678560B CN 201710774622 A CN201710774622 A CN 201710774622A CN 107678560 B CN107678560 B CN 107678560B
Authority
CN
China
Prior art keywords
segmentation
adjacent characters
adjacent
score
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710774622.3A
Other languages
English (en)
Other versions
CN107678560A (zh
Inventor
王博
王晔晗
高洋
周浩
王磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iFlytek Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CN201710774622.3A priority Critical patent/CN107678560B/zh
Publication of CN107678560A publication Critical patent/CN107678560A/zh
Application granted granted Critical
Publication of CN107678560B publication Critical patent/CN107678560B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/02Input arrangements using manually operated switches, e.g. using keyboards or dials
    • G06F3/023Arrangements for converting discrete items of information into a coded form, e.g. arrangements for interpreting keyboard generated codes as alphanumeric codes, operand codes or instruction codes
    • G06F3/0233Character input methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本公开提供一种输入法的候选结果生成方法及装置、存储介质、电子设备。所述方法包括:获取用户输入字符串时相邻两个字符之间的按键间隔时间;对所述字符串进行切分处理,获得至少一条切分路径,所述切分路径包括至少一个字符单元,每个字符单元对应表示一个文字;利用所述按键间隔时间对所述切分路径进行评分,并按照评分值高低对所述切分路径排序,所述评分值用于表示切分处理的准确度;利用预设语言模型,依序对各切分路径进行解码,将所述语言模型输出分值最高的N个解码结果,确定为候选结果。如此方案,有助于提高切分处理的准确性,进而解决因切分歧义导致候选结果准确性低的问题。

Description

输入法的候选结果生成方法及装置、存储介质、电子设备
技术领域
本公开涉及输入法技术领域,具体地,涉及一种输入法的候选结果生成方法及装置、存储介质、电子设备。
背景技术
随着信息技术的不断发展,各式各样的电子设备在人们的生活工作中日益普及。输入法作为用户与电子设备的交互入口,其自然方便、高效、高准确性等特点一直是用户所追求的。按键输入作为现今输入法中最重要的输入方式之一,其性能的提高一直是相关领域研发人员研究的热点。
在利用按键方式输入时,不论是中文输入(9键或者26键),还是其他文字输入,例如英文输入(9键或者26键),用户大多习惯输入较长的字符串,即,同时会输入多个文字对应的字符,文字可以体现为中文汉字、英文单词等。以中文拼音输入方式为例,在进行输入识别时,需要先对用户输入的字符串进行音节切分,一个音节对应一个文字;然后再利用语言模型对音节切分结果进行解码,得到字符串对应的候选结果,供用户选择。
目前的音节切分方案,只是单纯的考虑了用户输入时的按键位置信息,实际切分效果不理想,经常出现音节切分歧义,进而影响后续解码获得候选结果的准确性。
发明内容
本公开的主要目的是提供一种输入法的候选结果生成方法及装置、存储介质、电子设备,有助于提高切分处理的准确性,进而解决因切分歧义导致候选结果准确性低的问题。
为了实现上述目的,本公开提供一种输入法的候选结果生成方法,所述方法包括:
获取用户输入字符串时相邻两个字符之间的按键间隔时间;
对所述字符串进行切分处理,获得至少一条切分路径,所述切分路径包括至少一个字符单元,每个字符单元对应表示一个文字;
利用所述按键间隔时间对所述切分路径进行评分,并按照评分值高低对所述切分路径排序,所述评分值用于表示切分处理的准确度;
利用预设语言模型,依序对各切分路径进行解码,将所述语言模型输出分值最高的N个解码结果,确定为候选结果。
可选地,所述对所述字符串进行切分处理,包括:
根据所述按键间隔时间与预设分割时间,对所述字符串进行切分处理:
如果所述按键间隔时间小于所述预设分割时间,则判定该按键间隔时间对应的相邻两个字符属于同一字符单元;
如果所述按键间隔时间不小于所述预设分割时间,则判定该按键间隔时间对应的相邻两个字符属于相邻的两个字符单元。
可选地,所述利用所述按键间隔时间对所述切分路径进行评分,包括:
利用所述相邻两个字符之间的按键间隔时间,确定所述相邻两个字符对应的评分值;
根据所述相邻两个字符对应的评分值,确定所述切分路径的评分值。
可选地,所述利用所述相邻两个字符之间的按键间隔时间,确定所述相邻两个字符对应的评分值,包括:
如果所述按键间隔时间T为字符单元内部的相邻两个字符之间的按键间隔时间,则根据所述T、第一时间阈值T1和第二时间阈值T2,确定字符单元内部的相邻两个字符对应的评分值:
如果T>T1,则字符单元内部的相邻两个字符对应的评分值为第一惩罚分值S1
如果T2≤T≤T1,则字符单元内部的相邻两个字符对应的评分值为第一基准分值S2
如果T<T2,则字符单元内部的相邻两个字符对应的评分值为第一奖励分值S3
如果所述按键间隔时间T为相邻两个字符单元的相邻两个字符之间的按键间隔时间,则根据所述T、所述T1和所述T2,确定相邻两个字符单元的相邻两个字符对应的评分值:
如果T>T1,则相邻两个字符单元的相邻两个字符对应的评分值为第二奖励分值S4
如果T2≤T≤T1,则相邻两个字符单元的相邻两个字符对应的评分值为第二基准分值S5
如果T<T2,则相邻两个字符单元的相邻两个字符对应的评分值为第二惩罚分值S6
其中,S1<S2<S3,S6<S5<S4
可选地,所述切分路径具有原始评分值,所述根据所述相邻两个字符对应的评分值,确定所述切分路径的评分值,包括:
利用所述相邻两个字符对应的评分值以及所述原始评分值,进行数学运算,得到所述切分路径的评分值。
可选地,所述切分路径具有原始评分值,所述利用所述按键间隔时间对所述切分路径进行评分,包括:
利用所述相邻两个字符之间的按键间隔时间,确定所述相邻两个字符的切分类型;
根据所述相邻两个字符的切分类型,调整所述切分路径的原始评分值。
可选地,所述利用所述相邻两个字符之间的按键间隔时间,确定所述相邻两个字符的切分类型,包括:
根据所述按键间隔时间T、第一时间阈值T1和第二时间阈值T2,确定所述相邻两个字符的切分类型:
如果T>T1,则相邻两个字符的切分类型为分割点;
如果T2≤T≤T1,则相邻两个字符的切分类型为待定点;
如果T<T2,则相邻两个字符的切分类型为内结点。
可选地,所述根据所述相邻两个字符的切分类型,调整所述切分路径的原始评分值,包括:
根据所述切分路径包括的字符单元,确定相邻两个字符的切分类型;
基于根据所述切分路径包括的字符单元确定的相邻两个字符的切分类型、根据所述T、T1和T2确定的相邻两个字符的切分类型,调整所述切分路径的原始评分值:
如果相应的相邻两个字符的切分类型相同,则上调所述切分路径中该相邻两个字符对应的评分值;
如果相应的相邻两个字符的切分类型不同且切分类型不是待定点,则下调所述切分路径中该相邻两个字符对应的评分值。
可选地,所述根据所述切分路径包括的字符单元,确定相邻两个字符的切分类型,包括:
字符单元内部的相邻两个字符的切分类型确定为内结点;
相邻两个字符单元的相邻两个字符的切分类型确定为分割点。
可选地,按照以下方式确定所述T1和所述T2的取值:
获取用户输入的历史字符串的相邻两个字符之间的历史按键间隔时间;
利用所述历史字符串的内结点的历史按键间隔时间,计算第一时间均值
Figure BDA0001395677190000031
并基于所述
Figure BDA0001395677190000041
计算所述
Figure BDA0001395677190000042
且α>1;
利用所述历史字符串的分割点的历史按键间隔时间,计算第二时间均值
Figure BDA0001395677190000043
并基于所述
Figure BDA0001395677190000044
计算所述
Figure BDA0001395677190000045
且0<β<1。
可选地,在所述对所述字符串进行切分处理之前,所述方法还包括:
获取用户输入的历史字符串对应的历史候选结果;
根据所述历史字符串的相邻两个字符之间的历史按键间隔时间,确定所述历史字符串的相邻两个字符的切分类型;
判断根据所述历史按键间隔时间确定的相邻两个字符的切分类型与所述历史候选结果对应的相邻两个字符的切分类型的匹配度,是否小于预设值;
如果不小于所述预设值,则执行所述对所述字符串进行切分处理的步骤。
本公开提供一种输入法的候选结果生成装置,所述装置包括:
按键间隔时间获取模块,用于获取用户输入字符串时相邻两个字符之间的按键间隔时间;
切分路径获得模块,用于对所述字符串进行切分处理,获得至少一条切分路径,所述切分路径包括至少一个字符单元,每个字符单元对应表示一个文字;
切分路径评分模块,用于利用所述按键间隔时间对所述切分路径进行评分,并按照评分值高低对所述切分路径排序,所述评分值用于表示切分处理的准确度;
候选结果确定模块,用于利用预设语言模型,依序对各切分路径进行解码,将所述语言模型输出分值最高的N个解码结果,确定为候选结果。
可选地,所述切分路径获得模块,用于根据所述按键间隔时间与预设分割时间,对所述字符串进行切分处理:如果所述按键间隔时间小于所述预设分割时间,则判定该按键间隔时间对应的相邻两个字符属于同一字符单元;如果所述按键间隔时间不小于所述预设分割时间,则判定该按键间隔时间对应的相邻两个字符属于相邻的两个字符单元。
可选地,所述切分路径评分模块包括:
相邻字符评分模块,用于利用所述相邻两个字符之间的按键间隔时间,确定所述相邻两个字符对应的评分值;
切分路径评分子模块,用于根据所述相邻两个字符对应的评分值,确定所述切分路径的评分值。
可选地,所述相邻字符评分模块包括:
第一相邻字符评分子模块,用于在所述按键间隔时间T为字符单元内部的相邻两个字符之间的按键间隔时间时,根据所述T、第一时间阈值T1和第二时间阈值T2,确定字符单元内部的相邻两个字符对应的评分值:
如果T>T1,则字符单元内部的相邻两个字符对应的评分值为第一惩罚分值S1
如果T2≤T≤T1,则字符单元内部的相邻两个字符对应的评分值为第一基准分值S2
如果T<T2,则字符单元内部的相邻两个字符对应的评分值为第一奖励分值S3
第二相邻字符评分子模块,用于在所述按键间隔时间T为相邻两个字符单元的相邻两个字符之间的按键间隔时间时,根据所述T、所述T1和所述T2,确定相邻两个字符单元的相邻两个字符对应的评分值:
如果T>T1,则相邻两个字符单元的相邻两个字符对应的评分值为第二奖励分值S4
如果T2≤T≤T1,则相邻两个字符单元的相邻两个字符对应的评分值为第二基准分值S5
如果T<T2,则相邻两个字符单元的相邻两个字符对应的评分值为第二惩罚分值S6
其中,S1<S2<S3,S6<S5<S4
可选地,所述切分路径具有原始评分值,
所述切分路径评分子模块,用于利用所述相邻两个字符对应的评分值以及所述原始评分值,进行数学运算,得到所述切分路径的评分值。
可选地,所述切分路径具有原始评分值,所述切分路径评分模块包括:
第一切分类型确定模块,用于利用所述相邻两个字符之间的按键间隔时间,确定所述相邻两个字符的切分类型;
切分路径评分子模块,用于根据所述相邻两个字符的切分类型,调整所述切分路径的原始评分值。
可选地,所述第一切分类型确定模块,用于根据所述按键间隔时间T、第一时间阈值T1和第二时间阈值T2,确定所述相邻两个字符的切分类型:
如果T>T1,则相邻两个字符的切分类型为分割点;
如果T2≤T≤T1,则相邻两个字符的切分类型为待定点;
如果T<T2,则相邻两个字符的切分类型为内结点。
可选地,所述切分路径评分子模块包括:
第二切分类型确定模块,用于根据所述切分路径包括的字符单元,确定相邻两个字符的切分类型;
分值调整模块,用于基于根据所述切分路径包括的字符单元确定的相邻两个字符的切分类型、根据所述T、T1和T2确定的相邻两个字符的切分类型,调整所述切分路径的原始评分值:
如果相应的相邻两个字符的切分类型相同,则上调所述切分路径中该相邻两个字符对应的评分值;
如果相应的相邻两个字符的切分类型不同且切分类型不是待定点,则下调所述切分路径中该相邻两个字符对应的评分值。
可选地,所述第二切分类型确定模块,用于将字符单元内部的相邻两个字符的切分类型确定为内结点;将相邻两个字符单元的相邻两个字符的切分类型确定为分割点。
可选地,所述装置还包括:
时间阈值确定模块,用于获取用户输入的历史字符串的相邻两个字符之间的历史按键间隔时间;利用所述历史字符串的内结点的历史按键间隔时间,计算第一时间均值
Figure BDA0001395677190000061
并基于所述
Figure BDA0001395677190000062
计算所述
Figure BDA0001395677190000063
且α>1;利用所述历史字符串的分割点的历史按键间隔时间,计算第二时间均值
Figure BDA0001395677190000064
并基于所述
Figure BDA0001395677190000065
计算所述
Figure BDA0001395677190000066
且0<β<1。
可选地,所述装置还包括:
匹配度判断模块,用于获取用户输入的历史字符串对应的历史候选结果;根据所述历史字符串的相邻两个字符之间的历史按键间隔时间,确定所述历史字符串的相邻两个字符的切分类型;判断根据所述历史按键间隔时间确定的相邻两个字符的切分类型与所述历史候选结果对应的相邻两个字符的切分类型的匹配度,是否小于预设值;
所述切分路径获得模块,用于在所述匹配度不小于所述预设值时,对所述字符串进行切分处理。
本公开提供一种存储介质,其中存储有多条指令,所述指令由处理器加载,执行上述输入法的候选结果生成方法的步骤。
本公开提供一种电子设备,所述电子设备包括;
上述的存储介质;以及
处理器,用于执行所述存储介质中的指令。
本公开方案,可以对用户输入的字符串进行切分处理,得到至少一条切分路径,再利用按键间隔时间对各条切分路径进行评分,进而按照评分值由高到低,由语言模型依序对各切分路径进行解码,得到字符串对应的候选结果。如此方案,有助于提高切分处理的准确性,进而解决因切分歧义导致候选结果准确性低的问题。
本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:
图1为本公开方案输入法的候选结果生成方法实施例1的流程示意图;
图2为本公开方案中字符串的按键间隔时间的示意图;
图3为本公开方案中调整切分路径的原始评分值的流程示意图;
图4为本公开方案输入法的候选结果生成方法实施例2的流程示意图;
图5为本公开方案中确定T1和T2取值的流程示意图;
图6为本公开方案输入法的候选结果生成装置的构成示意图;
图7为本公开方案用于进行输入法的候选结果生成的电子设备的结构示意图。
具体实施方式
以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本公开,并不用于限制本公开。
参见图1,示出了本公开输入法的候选结果生成方法实施例1的流程示意图。可以包括以下步骤:
S101,获取用户输入字符串时相邻两个字符之间的按键间隔时间。
发明人分析大量用户输入行为后发现:用户在进行字符串输入时,相邻两个字符之间的按键间隔时间并不是完全相同的。通常,文字之间的停顿时间往往较长,即,需要进行字符单元切分的位置,停顿的时间较长。针对于此,本公开方案在用户输入字符串时,可以获取相邻两个字符之间的按键间隔时间,用于确定字符串的候选结果。可以理解地,在实际应用过程中,还可以获取按键的位置信息,以此确定用户输入了哪些字符,本公开方案主要是结合按键间隔时间确定候选结果,故对按键的位置信息不做详述。
可以理解地,本公开方案中的文字可以是中文,也可以是其他文字,例如英文。以中文输入为例,可以通过拼音方式输入,也可以通过笔画方式输入,即,字符串可以体现为字母串,或者笔画串,本公开方案对文字的类型、字符串的类型等可不做具体限定。此外,通过拼音方式输入时,一个字符单元可以理解为一个音节,对应一个文字。
S102,对所述字符串进行切分处理,获得至少一条切分路径,所述切分路径包括至少一个字符单元,每个字符单元对应表示一个文字。
在实际应用过程中,一个字符串可能会切分得到至少一条切分路径。例如,字符串“xiangai”至少可以切分得到以下切分路径:“xian gai”、“xiang ai”。
作为一种示例,本公开方案至少可以按照以下方式对字符串进行切分处理。
方式一,按照语言规则和用户习惯对字符串进行切分处理,获得至少一条切分路径。
以中文拼音为例,语言规则可以体现为切分优先级,例如,全拼的切分优先级>半拼的切分优先级>简拼的切分优先级;或者,语言规则可以体现为切分合理性,例如,如何切分更符合汉语拼音词典的规定。
仍以中文拼音为例,用户习惯可以体现为用户使用偏好,例如,用户更喜欢以简拼方式进行中文拼音输入,则可据此调整上述切分优先级;或者,用户习惯可以体现为区域使用偏好,例如,北京地区的用户喜欢使用儿化音,则在字符串中出现“er”时,可以将“er”划分为独立字符单元。
方式二,根据按键间隔时间与预设分割时间,对字符串进行切分处理,获得至少一条切分路径。
通常,字符单元内部的相邻两个字符的按键间隔时间,要小于相邻两个字符单元的相邻两个字符的按键间隔时间,故可根据预设分割时间,对字符串进行切分处理。
具体地,可以比较按键间隔时间、预设分割时间,如果所述按键间隔时间小于所述预设分割时间,则判定该按键间隔时间对应的相邻两个字符属于同一字符单元;如果所述按键间隔时间不小于所述预设分割时间,则判定该按键间隔时间对应的相邻两个字符属于相邻的两个字符单元。
S103,利用所述按键间隔时间对所述切分路径进行评分,并按照评分值高低对所述切分路径排序,所述评分值用于表示切分处理的准确度。
本公开方案中,可以利用按键间隔时间对切分路径进行评分,所得评分值可以表示切分处理的准确度,也就是说,切分路径的评分值越高,准确度越高,越符合实际情况。具体评分方案,可参照下文所做介绍,此处暂不详述。
S104,利用预设语言模型,依序对各切分路径进行解码,将所述语言模型输出分值最高的N个解码结果,确定为候选结果。
可以理解地,获得每条切分路径的评分值后,可以按照评分值由高到低,依序对切分路径进行解码。具体地,可以依序解码全部切分路径;或者,可以选取出评分值最高的M条切分路径进行解码,本公开方案对此可不做具体限定。
举例来说,“xian gai”、“xiang ai”两条切分路径的评分值由高到低,可以先针对“xian gai”解码得到“先改”、“先该”;再针对“xiang ai”解码得到“相爱”、“想爱”、“乡爱”。如此,便可根据语言模型的解码得分,从上述解码结果中选取出候选结果。例如,N的取值为4,若按照解码得分由高到低,上述解码结果的排序为:“先改”、“先该”、“相爱”、“想爱”、“乡爱”,故可将“先改”、“先该”、“相爱”、“想爱”确定为候选结果,展示给用户。
本公开方案中,可以参照相关技术获得语言模型,此处不做详述。例如,本公开方案可以通过ngram语言模型对切分路径进行解码,采用viterbi算法确定出语言模型输出分值最高的N个解码结果,作为用户输入的字符串对应的候选结果。
综上所述,本公开方案对用户输入的字符串进行切分处理,得到至少一条切分路径后,可以利用按键间隔时间对各条切分路径进行评分,如此,便可按照评分值从高到低,由语言模型依序对各切分路径进行解码,得到字符串对应的候选结果。如此方案,有助于提高切分处理的准确性,进而解决因切分歧义导致候选结果准确性低的问题。
作为一种示例,本公开方案至少可按以下两种方式,利用按键间隔时间对切分路径进行评分。
方式一,利用所述相邻两个字符之间的按键间隔时间,确定所述相邻两个字符对应的评分值;根据所述相邻两个字符对应的评分值,确定所述切分路径的评分值。
具体地,可以通过以下两个步骤,得到切分路径的评分值,下面分别进行解释说明。
步骤一,根据按键间隔时间,确定相邻两个字符对应的评分值。
(1)如果所述按键间隔时间T为字符单元内部的相邻两个字符之间的按键间隔时间,则根据所述T、第一时间阈值T1和第二时间阈值T2,确定字符单元内部的相邻两个字符对应的评分值:
如果T>T1,则字符单元内部的相邻两个字符对应的评分值为第一惩罚分值S1
如果T2≤T≤T1,则字符单元内部的相邻两个字符对应的评分值为第一基准分值S2
如果T<T2,则字符单元内部的相邻两个字符对应的评分值为第一奖励分值S3
可以理解地,第一惩罚分值S1、第一基准分值S2、第一奖励分值S3,三者是相对分值。举例来说,S1、S2、S3三者都是正数,如0<S1<1,S2=1,S3>1;或者,S1、S2、S3三者有正数负数之分,如S1为负数,S2=0,S3为正数。本公开方案对S1、S2、S3三者的取值不做具体限定,只要满足S1<S2<S3即可。
举例来说,T1可以为500ms,T2可以为200ms,对于字符单元内部的相邻两个字符来说,如果二者之间的按键间隔时间超过500ms,可以对应得到第一惩罚分值0.5分;如果二者之间的按键间隔时间在200ms~500ms之间,可以对应得到第一基准分值1分;如果二者之间的按键间隔时间小于200ms,可以对应得到第一奖励分值1.05分。
以“xian gai”切分路径为例,对于字符单元“xian”来说,x与i、i与a、a与n均属于字符单元内部的相邻两个字符,可以结合按键间隔时间,得到x与i对应的评分值Sxi、i与a对应的评分值Sia、a与n对应的评分值San。同理,针对字符单元“gai”,还可以得到g与a对应的评分值Sga、a与i对应的评分值Sai
(2)如果所述按键间隔时间T为相邻两个字符单元的相邻两个字符之间的按键间隔时间,则根据所述T、所述T1和所述T2,确定相邻两个字符单元的相邻两个字符对应的评分值:
如果T>T1,则相邻两个字符单元的相邻两个字符对应的评分值为第二奖励分值S4
如果T2≤T≤T1,则相邻两个字符单元的相邻两个字符对应的评分值为第二基准分值S5
如果T<T2,则相邻两个字符单元的相邻两个字符对应的评分值为第二惩罚分值S6
可以理解地,第二惩罚分值S6、第二基准分值S5、第二奖励分值S4,三者是相对分值。举例来说,S4、S5、S6三者都是正数,如S4>1,S5=1,0<S6<1;或者,S4、S5、S6三者有正数负数之分,如S6为负数,S5=0,S4为正数。本公开方案对S4、S5、S6三者的取值不做具体限定,只要满足S6<S5<S4即可。
举例来说,T1可以为500ms,T2可以为200ms,对于相邻两个字符单元的相邻两个字符来说,如果二者之间的按键间隔时间超过500ms,可以对应得到第二奖励分值2分;如果二者之间的按键间隔时间在200ms~500ms之间,可以对应得到第二基准分值1分;如果二者之间的按键间隔时间小于200ms,可以对应得到第二惩罚分值0.5分。
以“xian gai”切分路径为例,“xian”与“gai”属于相邻两个字符单元,n与g属于相邻两个字符单元的相邻两个字符,可以结合按键间隔时间,得到n与g对应的评分值Sng
步骤二,根据相邻两个字符对应的评分值,得到切分路径的评分值。
实施例1
可以利用切分路径包括的所有字符单元内部的相邻两个字符对应的评分值、所有相邻两个字符单元的相邻两个字符对应的评分值,进行数学运算,得到切分路径的评分值。
作为一种示例,如果评分值都是正数,数学运算可以体现为相乘、相加,如果评分值有正数负数之分,数学运算可以体现为相加。以“xian gai”切分路径为例,切分路径的评分值S=Sxi*Sia*San*Sng*Sga*Sai
实施例2
如果切分路径具有原始评分值,即,可由切分处理时各相邻两个字符的评分值计算出原始评分值,则可利用步骤一得到的相邻两个字符对应的评分值以及原始评分值,进行数学运算,得到切分路径的评分值。
举例来说,可以先利用步骤一得到的评分值进行数学运算,得到切分路径的基础评分值;再利用原始评分值与基础评分值进行数学运算,得到切分路径的评分值。其中,计算基础评分值时,如果评分值都是正数,数学运算可以体现为相乘、相加,如果评分值有正数负数之分,数学运算可以体现为相加;计算切分路径的评分值时,数学运算可以体现为相乘、相加、加权和。如果数学运算为加权和,基础评分值、原始评分值的权重,可以结合实际应用设定,本公开方案对此可不做限定。例如,可以参照下文图4所示方式,当匹配度小于预设值时,可以将基础评分值的权重值设置的稍小些。
举例来说,可以先得到相邻两个字符的两种评分值:根据步骤一得到的评分值、根据切分处理得到的评分值,再利用两种评分值进行数学运算,得到该相邻两个字符的最终评分值;最后,利用各个相邻两个字符的最终评分值进行数学运算,便可得到切分路径的评分值。
方式二,所述切分路径具有原始评分值,则可利用所述相邻两个字符之间的按键间隔时间,确定所述相邻两个字符的切分类型;根据所述相邻两个字符的切分类型,调整所述切分路径的原始评分值。
具体地,可以通过以下两个步骤,得到切分路径的评分值,下面分别进行解释说明。
步骤一,根据按键间隔时间,确定相邻两个字符的切分类型。
根据所述按键间隔时间T、第一时间阈值T1和第二时间阈值T2,确定所述相邻两个字符的切分类型:
(1)如果T>T1,则相邻两个字符的切分类型为分割点。举例来说,T1可以为500ms,也就是说,对于相邻两个字符来说,如果二者之间的按键间隔时间超过500ms,切分类型可以确定为分割点,可以标记为单引号’。
(2)如果T2≤T≤T1,则相邻两个字符的切分类型为待定点。举例来说,T2可以为200ms,也就是说,对于相邻两个字符来说,如果二者之间的按键间隔时间在200ms~500ms之间,切分类型可以确定为待定点,可以标记为空。也就是说,当不确定相邻两个字符是否属于同一字符单元时,可以将切分类型确定为待定点。
(3)如果T<T2,则相邻两个字符的切分类型为内结点。也就是说,对于相邻两个字符来说,如果二者之间的按键间隔时间小于200ms,切分类型可以确定为内结点,可以标记为减号-。
以字符串“xiangai”为例,结合图2所示可知,n与g之间的按键间隔时间超过500ms的停顿,可以标记为分割点;x与i、i与a、g与a之间按键间隔时间小于200ms,可以标记为内结点;a与n、a与i之间按键间隔时间在200ms~500ms之间,可以标记为待定点。如此,字符串的切分结果可以标记为:x-i-an’g-ai。
步骤二,根据相邻两个字符的切分类型,调整切分路径的原始评分值。
参见图3,示出了本公开中调整切分路径的原始评分值的流程示意图。可以包括以下步骤:
S201,根据所述切分路径包括的字符单元,确定相邻两个字符的切分类型。
具体地,字符单元内部的相邻两个字符的切分类型可以确定为内结点,相邻两个字符单元的相邻两个字符的切分类型可以确定为分割点。
以字符串“xiangai”为例,针对两条切分路径,可得到如下切分结果:
对于切分路径“xian gai”来说,x与i、i与a、a与n、g与a、a与i的切分类型为内结点,可以通过减号-标记内结点;n与g的切分类型为分割点,可以通过单引号’标记分割点。如此,字符串的切分结果可以标记为:x-i-a-n’g-a-i。
对于切分路径“xiang ai”,来说,x与i、i与a、a与n、n与g、a与i的切分类型为内结点,可以通过减号-标记内结点;g与a切分类型为分割点,可以通过单引号’标记分割点。如此,字符串的切分结果可以标记为:x-i-a-n-g’a-i。
S202,基于根据所述切分路径包括的字符单元确定的相邻两个字符的切分类型、根据所述T、T1和T2确定的相邻两个字符的切分类型,调整所述切分路径的原始评分值。
本公开方案中,可以将根据T、T1和T2确定切分类型的方式称为方式1,根据切分路径包括的字符单元确定切分类型的方式称为方式2。可以对比两种方式得到的切分类型,调整切分路径的原始评分值,对比结果可体现为以下情况:
(1)如果相应的相邻两个字符的切分类型相同,则上调所述切分路径中该相邻两个字符对应的评分值;
(2)如果相应的相邻两个字符的切分类型不同且切分类型不是待定点,则下调所述切分路径中该相邻两个字符对应的评分值。
作为一种示例,还存在如下第三种对比结果:相应的相邻两个字符的切分类型不同,且方式1获得的切分类型为待定点,针对于此,可以维持切分路径中该相邻两个字符对应的评分值不变;或者,可以对切分路径中该相邻两个字符对应的评分值进行微调,如果微调体现为上调,则微调幅度小于情况(1)的上调幅度即可,如果微调体现为下调,则微调幅度小于情况(2)的下调幅度即可。本公开方案对第三种对比结果的分值调整方案,可不做具体限定。
以切分路径“xiang ai”为例,评分值调整方式可参见下表1。
表1
相邻两个字符 方式1的切分类型 方式2的切分类型 评分值调整
x与i - - 上调
i与a - - 上调
a与n - 不变
n与g - 下调
g与a - 下调
a与i - 不变
由表1可知,如果判断两种方式确定的相邻两个字符的切分类型相同,则可上调原始评分值;如果切分类型不同,可以继续判断方式1确定的切分类型是否为待定点,如果是待定点,则可维持原始评分值不变;如果不是待定点,则可下调原始评分值。
具体地,可以在原始评分值的基础上,乘以调整系数,得到切分路径的调整后评分值。举例来说,调整系数可以参见下文表2。
表2
Figure BDA0001395677190000141
可以理解地,如果字符串划分出至少两条切分路径,可以按照上述方案调整每条切分路径的原始评分值,此处不再一一举例说明。
参见图4,示出了本公开输入法的候选结果生成方法实施例2的流程示意图。可以包括以下步骤:
S301,获取用户输入字符串时相邻两个字符之间的按键间隔时间。
具体地,S301的实现过程,可参照上文S101处所做介绍,此处不再赘述。
S302,获取用户输入的历史字符串对应的历史候选结果。
S303,根据所述历史字符串的相邻两个字符之间的历史按键间隔时间,确定所述历史字符串的相邻两个字符的切分类型。
S304,判断根据所述历史按键间隔时间确定的相邻两个字符的切分类型与所述历史候选结果对应的相邻两个字符的切分类型的匹配度,是否小于预设值。
在实际应用过程中,对于少量用户来说,其按键使用习惯可能导致相邻两个字符的按键间隔时间与字符单元的切分无关,例如,对键盘不熟悉的用户,可能寻找键位的时间远大于思考文字对应的字符串的时间,因此,该少量用户的按键间隔时间与字符单元的切分无关。
作为一种示例,可以通过S302~S304判断用户是否为上文介绍的少量用户,如果判定用户为少量用户,则说明该用户的按键间隔时间与字符单元的切分无关。针对于此,在后续处理过程中,可以将所有的相邻两个字符的切分类型确定为待定点,本公开方案对这情况的处理过程可不做具体限定。
具体地,可以采集历史字符串,例如,采集用户最近输入的K个历史字符串,并针对每个历史字符串作如下处理:
(1)获取历史字符串对应的历史候选结果,以及该历史候选结果对应的相邻两个字符的切分类型;
(2)根据历史字符串的相邻两个字符之间的历史按键间隔时间,确定该历史字符串的相邻两个字符的切分类型;
(3)判断上述两种方式得到的相邻两个字符的切分类型的匹配度,是否小于预设值:如果小于预设值,即说明二者的匹配度较低,可认为该用户为少量用户。
S305,如果不小于所述预设值,则对所述字符串进行切分处理,获得至少一条切分路径,所述切分路径包括至少一个字符单元,每个字符单元对应表示一个文字。
S306,利用所述按键间隔时间对所述切分路径进行评分,并按照评分值高低对所述切分路径排序,所述评分值用于表示切分处理的准确度。
S307,利用预设语言模型,依序对各切分路径进行解码,将所述语言模型输出分值最高的N个解码结果,确定为候选结果。
具体地,S305~S307的实现过程,可参照上文S102~S104处所做介绍,此处不再赘述。
作为一种示例,本公开还提供一种确定T1和T2取值的方案,具体可参见图5所示流程示意图。可以包括以下步骤:
S401,获取用户输入的历史字符串的相邻两个字符之间的历史按键间隔时间。
S402,利用所述历史字符串的内结点的历史按键间隔时间,计算第一时间均值
Figure BDA0001395677190000151
并基于所述
Figure BDA0001395677190000152
计算所述
Figure BDA0001395677190000153
且α>1。
S403,利用所述历史字符串的分割点的历史按键间隔时间,计算第二时间均值
Figure BDA0001395677190000154
并基于所述
Figure BDA0001395677190000155
计算所述
Figure BDA0001395677190000156
且0<β<1。
具体地,可以采集历史字符串,例如用户最近输入的K个历史字符串,统计各历史字符串的内结点的历史按键间隔时间,得到第一时间均值
Figure BDA0001395677190000157
统计各历史字符串的分割点的历史按键间隔时间,得到第二时间均值
Figure BDA0001395677190000158
然后按照以下公式计算T1和T2
Figure BDA0001395677190000159
上面公式中的α、β均为常量,使
Figure BDA00013956771900001510
有助于提高内结点的判断准确性;使
Figure BDA00013956771900001511
有助于提高分割点的判断准确性。
参见图6,示出了本公开输入法的候选结果生成装置的构成示意图。所述装置可以包括:
按键间隔时间获取模块501,用于获取用户输入字符串时相邻两个字符之间的按键间隔时间;
切分路径获得模块502,用于对所述字符串进行切分处理,获得至少一条切分路径,所述切分路径包括至少一个字符单元,每个字符单元对应表示一个文字;
切分路径评分模块503,用于利用所述按键间隔时间对所述切分路径进行评分,并按照评分值高低对所述切分路径排序,所述评分值用于表示切分处理的准确度;
候选结果确定模块504,用于利用预设语言模型,依序对各切分路径进行解码,将所述语言模型输出分值最高的N个解码结果,确定为候选结果。
可选地,所述切分路径获得模块,用于根据所述按键间隔时间与预设分割时间,对所述字符串进行切分处理:如果所述按键间隔时间小于所述预设分割时间,则判定该按键间隔时间对应的相邻两个字符属于同一字符单元;如果所述按键间隔时间不小于所述预设分割时间,则判定该按键间隔时间对应的相邻两个字符属于相邻的两个字符单元。
可选地,所述切分路径评分模块包括:
相邻字符评分模块,用于利用所述相邻两个字符之间的按键间隔时间,确定所述相邻两个字符对应的评分值;
切分路径评分子模块,用于根据所述相邻两个字符对应的评分值,确定所述切分路径的评分值。
可选地,所述相邻字符评分模块包括:
第一相邻字符评分子模块,用于在所述按键间隔时间T为字符单元内部的相邻两个字符之间的按键间隔时间时,根据所述T、第一时间阈值T1和第二时间阈值T2,确定字符单元内部的相邻两个字符对应的评分值:
如果T>T1,则字符单元内部的相邻两个字符对应的评分值为第一惩罚分值S1
如果T2≤T≤T1,则字符单元内部的相邻两个字符对应的评分值为第一基准分值S2
如果T<T2,则字符单元内部的相邻两个字符对应的评分值为第一奖励分值S3
第二相邻字符评分子模块,用于在所述按键间隔时间T为相邻两个字符单元的相邻两个字符之间的按键间隔时间时,根据所述T、所述T1和所述T2,确定相邻两个字符单元的相邻两个字符对应的评分值:
如果T>T1,则相邻两个字符单元的相邻两个字符对应的评分值为第二奖励分值S4
如果T2≤T≤T1,则相邻两个字符单元的相邻两个字符对应的评分值为第二基准分值S5
如果T<T2,则相邻两个字符单元的相邻两个字符对应的评分值为第二惩罚分值S6
其中,S1<S2<S3,S6<S5<S4
可选地,所述切分路径具有原始评分值,
所述切分路径评分子模块,用于利用所述相邻两个字符对应的评分值以及所述原始评分值,进行数学运算,得到所述切分路径的评分值。
可选地,所述切分路径具有原始评分值,所述切分路径评分模块包括:
第一切分类型确定模块,用于利用所述相邻两个字符之间的按键间隔时间,确定所述相邻两个字符的切分类型;
切分路径评分子模块,用于根据所述相邻两个字符的切分类型,调整所述切分路径的原始评分值。
可选地,所述第一切分类型确定模块,用于根据所述按键间隔时间T、第一时间阈值T1和第二时间阈值T2,确定所述相邻两个字符的切分类型:
如果T>T1,则相邻两个字符的切分类型为分割点;
如果T2≤T≤T1,则相邻两个字符的切分类型为待定点;
如果T<T2,则相邻两个字符的切分类型为内结点。
可选地,所述切分路径评分子模块包括:
第二切分类型确定模块,用于根据所述切分路径包括的字符单元,确定相邻两个字符的切分类型;
分值调整模块,用于基于根据所述切分路径包括的字符单元确定的相邻两个字符的切分类型、根据所述T、T1和T2确定的相邻两个字符的切分类型,调整所述切分路径的原始评分值:
如果相应的相邻两个字符的切分类型相同,则上调所述切分路径中该相邻两个字符对应的评分值;
如果相应的相邻两个字符的切分类型不同且切分类型不是待定点,则下调所述切分路径中该相邻两个字符对应的评分值。
可选地,所述第二切分类型确定模块,用于将字符单元内部的相邻两个字符的切分类型确定为内结点;将相邻两个字符单元的相邻两个字符的切分类型确定为分割点。
可选地,所述装置还包括:
时间阈值确定模块,用于获取用户输入的历史字符串的相邻两个字符之间的历史按键间隔时间;利用所述历史字符串的内结点的历史按键间隔时间,计算第一时间均值
Figure BDA0001395677190000181
并基于所述
Figure BDA0001395677190000182
计算所述
Figure BDA0001395677190000183
且α>1;利用所述历史字符串的分割点的历史按键间隔时间,计算第二时间均值
Figure BDA0001395677190000184
并基于所述
Figure BDA0001395677190000185
计算所述
Figure BDA0001395677190000186
且0<β<1。
可选地,所述装置还包括:
匹配度判断模块,用于获取用户输入的历史字符串对应的历史候选结果;根据所述历史字符串的相邻两个字符之间的历史按键间隔时间,确定所述历史字符串的相邻两个字符的切分类型;判断根据所述历史按键间隔时间确定的相邻两个字符的切分类型与所述历史候选结果对应的相邻两个字符的切分类型的匹配度,是否小于预设值;
所述切分路径获得模块,用于在所述匹配度不小于所述预设值时,对所述字符串进行切分处理。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
参见图7,示出了本公开用于进行输入法的候选结果生成的电子设备600的结构示意图。参照图7,电子设备600包括处理组件601,其进一步包括一个或多个处理器,以及由存储介质602所代表的存储设备资源,用于存储可由处理组件601的执行的指令,例如应用程序。存储介质602中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件601被配置为执行指令,以执行上述输入法的候选结果生成方法。
电子设备600还可以包括一个电源组件603,被配置为执行电子设备600的电源管理;一个有线或无线网络接口604,被配置为将电子设备600连接到网络;和一个输入输出(I/O)接口605。电子设备600可以操作基于存储在存储介质602的操作系统,例如WindowsServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM或类似。
以上结合附图详细描述了本公开的优选实施方式,但是,本公开并不限于上述实施方式中的具体细节,在本公开的技术构思范围内,可以对本公开的技术方案进行多种简单变型,这些简单变型均属于本公开的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合,为了避免不必要的重复,本公开对各种可能的组合方式不再另行说明。
此外,本公开的各种不同的实施方式之间也可以进行任意组合,只要其不违背本公开的思想,其同样应当视为本公开所公开的内容。

Claims (24)

1.一种输入法的候选结果生成方法,其特征在于,所述方法包括:
获取用户输入字符串时相邻两个字符之间的按键间隔时间;
对所述字符串进行切分处理,获得至少一条切分路径,所述切分路径包括至少一个字符单元,每个字符单元对应表示一个文字;
利用所述按键间隔时间对所述切分路径进行评分,并按照评分值高低对所述切分路径排序,所述评分值用于表示切分处理的准确度;
利用预设语言模型,依序对各切分路径进行解码,将所述语言模型输出分值最高的N个解码结果,确定为候选结果。
2.根据权利要求1所述的方法,其特征在于,所述对所述字符串进行切分处理,包括:
根据所述按键间隔时间与预设分割时间,对所述字符串进行切分处理:
如果所述按键间隔时间小于所述预设分割时间,则判定该按键间隔时间对应的相邻两个字符属于同一字符单元;
如果所述按键间隔时间不小于所述预设分割时间,则判定该按键间隔时间对应的相邻两个字符属于相邻的两个字符单元。
3.根据权利要求1所述的方法,其特征在于,所述利用所述按键间隔时间对所述切分路径进行评分,包括:
利用所述相邻两个字符之间的按键间隔时间,确定所述相邻两个字符对应的评分值;
根据所述相邻两个字符对应的评分值,确定所述切分路径的评分值。
4.根据权利要求3所述的方法,其特征在于,所述利用所述相邻两个字符之间的按键间隔时间,确定所述相邻两个字符对应的评分值,包括:
如果所述按键间隔时间T为字符单元内部的相邻两个字符之间的按键间隔时间,则根据所述T、第一时间阈值T1和第二时间阈值T2,确定字符单元内部的相邻两个字符对应的评分值:
如果T>T1,则字符单元内部的相邻两个字符对应的评分值为第一惩罚分值S1
如果T2≤T≤T1,则字符单元内部的相邻两个字符对应的评分值为第一基准分值S2
如果T<T2,则字符单元内部的相邻两个字符对应的评分值为第一奖励分值S3
如果所述按键间隔时间T为相邻两个字符单元的相邻两个字符之间的按键间隔时间,则根据所述T、所述T1和所述T2,确定相邻两个字符单元的相邻两个字符对应的评分值:
如果T>T1,则相邻两个字符单元的相邻两个字符对应的评分值为第二奖励分值S4
如果T2≤T≤T1,则相邻两个字符单元的相邻两个字符对应的评分值为第二基准分值S5
如果T<T2,则相邻两个字符单元的相邻两个字符对应的评分值为第二惩罚分值S6
其中,S1<S2<S3,S6<S5<S4
5.根据权利要求4所述的方法,其特征在于,所述切分路径具有原始评分值,所述根据所述相邻两个字符对应的评分值,确定所述切分路径的评分值,包括:
利用所述相邻两个字符对应的评分值以及所述原始评分值,进行数学运算,得到所述切分路径的评分值。
6.根据权利要求1所述的方法,其特征在于,所述切分路径具有原始评分值,所述利用所述按键间隔时间对所述切分路径进行评分,包括:
利用所述相邻两个字符之间的按键间隔时间,确定所述相邻两个字符的切分类型;
根据所述相邻两个字符的切分类型,调整所述切分路径的原始评分值。
7.根据权利要求6所述的方法,其特征在于,所述利用所述相邻两个字符之间的按键间隔时间,确定所述相邻两个字符的切分类型,包括:
根据所述按键间隔时间T、第一时间阈值T1和第二时间阈值T2,确定所述相邻两个字符的切分类型:
如果T>T1,则相邻两个字符的切分类型为分割点;
如果T2≤T≤T1,则相邻两个字符的切分类型为待定点;
如果T<T2,则相邻两个字符的切分类型为内结点。
8.根据权利要求7所述的方法,其特征在于,所述根据所述相邻两个字符的切分类型,调整所述切分路径的原始评分值,包括:
根据所述切分路径包括的字符单元,确定相邻两个字符的切分类型;
基于根据所述切分路径包括的字符单元确定的相邻两个字符的切分类型、根据所述T、T1和T2确定的相邻两个字符的切分类型,调整所述切分路径的原始评分值:
如果相应的相邻两个字符的切分类型相同,则上调所述切分路径中该相邻两个字符对应的评分值;
如果相应的相邻两个字符的切分类型不同且切分类型不是待定点,则下调所述切分路径中该相邻两个字符对应的评分值。
9.根据权利要求8所述的方法,其特征在于,所述根据所述切分路径包括的字符单元,确定相邻两个字符的切分类型,包括:
字符单元内部的相邻两个字符的切分类型确定为内结点;
相邻两个字符单元的相邻两个字符的切分类型确定为分割点。
10.根据权利要求4或7所述的方法,其特征在于,按照以下方式确定所述T1和所述T2的取值:
获取用户输入的历史字符串的相邻两个字符之间的历史按键间隔时间;
利用所述历史字符串的内结点的历史按键间隔时间,计算第一时间均值
Figure FDA0003115527850000031
并基于所述
Figure FDA0003115527850000032
计算所述
Figure FDA0003115527850000033
且α>1;
利用所述历史字符串的分割点的历史按键间隔时间,计算第二时间均值
Figure FDA0003115527850000041
并基于所述
Figure FDA0003115527850000042
计算所述
Figure FDA0003115527850000043
且0<β<1。
11.根据权利要求1至9任一项所述的方法,其特征在于,在所述对所述字符串进行切分处理之前,所述方法还包括:
获取用户输入的历史字符串对应的历史候选结果;
根据所述历史字符串的相邻两个字符之间的历史按键间隔时间,确定所述历史字符串的相邻两个字符的切分类型;
判断根据所述历史按键间隔时间确定的相邻两个字符的切分类型与所述历史候选结果对应的相邻两个字符的切分类型的匹配度,是否小于预设值;
如果不小于所述预设值,则执行所述对所述字符串进行切分处理的步骤。
12.一种输入法的候选结果生成装置,其特征在于,所述装置包括:
按键间隔时间获取模块,用于获取用户输入字符串时相邻两个字符之间的按键间隔时间;
切分路径获得模块,用于对所述字符串进行切分处理,获得至少一条切分路径,所述切分路径包括至少一个字符单元,每个字符单元对应表示一个文字;
切分路径评分模块,用于利用所述按键间隔时间对所述切分路径进行评分,并按照评分值高低对所述切分路径排序,所述评分值用于表示切分处理的准确度;
候选结果确定模块,用于利用预设语言模型,依序对各切分路径进行解码,将所述语言模型输出分值最高的N个解码结果,确定为候选结果。
13.根据权利要求12所述的装置,其特征在于,
所述切分路径获得模块,用于根据所述按键间隔时间与预设分割时间,对所述字符串进行切分处理:如果所述按键间隔时间小于所述预设分割时间,则判定该按键间隔时间对应的相邻两个字符属于同一字符单元;如果所述按键间隔时间不小于所述预设分割时间,则判定该按键间隔时间对应的相邻两个字符属于相邻的两个字符单元。
14.根据权利要求12所述的装置,其特征在于,所述切分路径评分模块包括:
相邻字符评分模块,用于利用所述相邻两个字符之间的按键间隔时间,确定所述相邻两个字符对应的评分值;
切分路径评分子模块,用于根据所述相邻两个字符对应的评分值,确定所述切分路径的评分值。
15.根据权利要求14所述的装置,其特征在于,所述相邻字符评分模块包括:
第一相邻字符评分子模块,用于在所述按键间隔时间T为字符单元内部的相邻两个字符之间的按键间隔时间时,根据所述T、第一时间阈值T1和第二时间阈值T2,确定字符单元内部的相邻两个字符对应的评分值:
如果T>T1,则字符单元内部的相邻两个字符对应的评分值为第一惩罚分值S1
如果T2≤T≤T1,则字符单元内部的相邻两个字符对应的评分值为第一基准分值S2
如果T<T2,则字符单元内部的相邻两个字符对应的评分值为第一奖励分值S3
第二相邻字符评分子模块,用于在所述按键间隔时间T为相邻两个字符单元的相邻两个字符之间的按键间隔时间时,根据所述T、所述T1和所述T2,确定相邻两个字符单元的相邻两个字符对应的评分值:
如果T>T1,则相邻两个字符单元的相邻两个字符对应的评分值为第二奖励分值S4
如果T2≤T≤T1,则相邻两个字符单元的相邻两个字符对应的评分值为第二基准分值S5
如果T<T2,则相邻两个字符单元的相邻两个字符对应的评分值为第二惩罚分值S6
其中,S1<S2<S3,S6<S5<S4
16.根据权利要求15所述的装置,其特征在于,所述切分路径具有原始评分值,
所述切分路径评分子模块,用于利用所述相邻两个字符对应的评分值以及所述原始评分值,进行数学运算,得到所述切分路径的评分值。
17.根据权利要求15所述的装置,其特征在于,所述切分路径具有原始评分值,所述切分路径评分模块包括:
第一切分类型确定模块,用于利用所述相邻两个字符之间的按键间隔时间,确定所述相邻两个字符的切分类型;
切分路径评分子模块,用于根据所述相邻两个字符的切分类型,调整所述切分路径的原始评分值。
18.根据权利要求17所述的装置,其特征在于,
所述第一切分类型确定模块,用于根据所述按键间隔时间T、第一时间阈值T1和第二时间阈值T2,确定所述相邻两个字符的切分类型:
如果T>T1,则相邻两个字符的切分类型为分割点;
如果T2≤T≤T1,则相邻两个字符的切分类型为待定点;
如果T<T2,则相邻两个字符的切分类型为内结点。
19.根据权利要求17所述的装置,其特征在于,所述切分路径评分子模块包括:
第二切分类型确定模块,用于根据所述切分路径包括的字符单元,确定相邻两个字符的切分类型;
分值调整模块,用于基于根据所述切分路径包括的字符单元确定的相邻两个字符的切分类型、根据所述T、T1和T2确定的相邻两个字符的切分类型,调整所述切分路径的原始评分值:
如果相应的相邻两个字符的切分类型相同,则上调所述切分路径中该相邻两个字符对应的评分值;
如果相应的相邻两个字符的切分类型不同且切分类型不是待定点,则下调所述切分路径中该相邻两个字符对应的评分值。
20.根据权利要求19所述的装置,其特征在于,
所述第二切分类型确定模块,用于将字符单元内部的相邻两个字符的切分类型确定为内结点;将相邻两个字符单元的相邻两个字符的切分类型确定为分割点。
21.根据权利要求15或18所述的装置,其特征在于,所述装置还包括:
时间阈值确定模块,用于获取用户输入的历史字符串的相邻两个字符之间的历史按键间隔时间;利用所述历史字符串的内结点的历史按键间隔时间,计算第一时间均值
Figure FDA0003115527850000071
并基于所述
Figure FDA0003115527850000072
计算所述
Figure FDA0003115527850000073
且α>1;利用所述历史字符串的分割点的历史按键间隔时间,计算第二时间均值
Figure FDA0003115527850000074
并基于所述
Figure FDA0003115527850000075
计算所述
Figure FDA0003115527850000076
且0<β<1。
22.根据权利要求12至20任一项所述的装置,其特征在于,所述装置还包括:
匹配度判断模块,用于获取用户输入的历史字符串对应的历史候选结果;根据所述历史字符串的相邻两个字符之间的历史按键间隔时间,确定所述历史字符串的相邻两个字符的切分类型;判断根据所述历史按键间隔时间确定的相邻两个字符的切分类型与所述历史候选结果对应的相邻两个字符的切分类型的匹配度,是否小于预设值;
所述切分路径获得模块,用于在所述匹配度不小于所述预设值时,对所述字符串进行切分处理。
23.一种存储介质,其中存储有多条指令,其特征在于,所述指令由处理器加载,执行权利要求1至11任一项所述方法的步骤。
24.一种电子设备,其特征在于,所述电子设备包括:
权利要求23所述的存储介质;以及
处理器,用于执行所述存储介质中的指令。
CN201710774622.3A 2017-08-31 2017-08-31 输入法的候选结果生成方法及装置、存储介质、电子设备 Active CN107678560B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710774622.3A CN107678560B (zh) 2017-08-31 2017-08-31 输入法的候选结果生成方法及装置、存储介质、电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710774622.3A CN107678560B (zh) 2017-08-31 2017-08-31 输入法的候选结果生成方法及装置、存储介质、电子设备

Publications (2)

Publication Number Publication Date
CN107678560A CN107678560A (zh) 2018-02-09
CN107678560B true CN107678560B (zh) 2021-10-08

Family

ID=61136089

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710774622.3A Active CN107678560B (zh) 2017-08-31 2017-08-31 输入法的候选结果生成方法及装置、存储介质、电子设备

Country Status (1)

Country Link
CN (1) CN107678560B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108932069B (zh) * 2018-07-11 2023-04-07 科大讯飞股份有限公司 输入法候选词条确定方法、装置、设备及可读存储介质
CN111488990B (zh) * 2020-04-17 2022-11-29 苏州浪潮智能科技有限公司 一种基于性能感知的模型裁剪方法、装置、设备和介质
CN113238664B (zh) * 2021-05-14 2023-07-25 北京百度网讯科技有限公司 一种字符确定方法、装置及电子设备
CN113655893A (zh) * 2021-07-08 2021-11-16 华为技术有限公司 一种词句生成方法、模型训练方法及相关设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103365573A (zh) * 2012-03-27 2013-10-23 北京搜狗科技发展有限公司 一种对多键输入字符进行识别的方法和装置
CN105260113A (zh) * 2015-09-18 2016-01-20 科大讯飞股份有限公司 滑行输入方法、装置及终端设备
CN105843414A (zh) * 2015-01-13 2016-08-10 北京搜狗科技发展有限公司 输入法的输入修正方法和输入法装置

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102455786B (zh) * 2010-10-25 2014-09-03 三星电子(中国)研发中心 一种对中文句子输入法的优化系统及方法
CN102866782B (zh) * 2011-07-06 2015-05-20 哈尔滨工业大学 一种提高整句生成效率的输入法和输入法系统
WO2014000267A1 (en) * 2012-06-29 2014-01-03 Microsoft Corporation Cross-lingual input method editor
CN103869998B (zh) * 2012-12-11 2018-05-01 百度国际科技(深圳)有限公司 一种对输入法所产生的候选项进行排序的方法及装置
US8887103B1 (en) * 2013-04-22 2014-11-11 Google Inc. Dynamically-positioned character string suggestions for gesture typing
CN104808806B (zh) * 2014-01-28 2019-10-25 北京三星通信技术研究有限公司 根据不确定性信息实现汉字输入的方法和装置
CN105335415A (zh) * 2014-08-04 2016-02-17 北京搜狗科技发展有限公司 基于输入预测的搜索方法和输入法系统
CN106484131B (zh) * 2015-09-02 2021-06-22 北京搜狗科技发展有限公司 一种输入纠错方法和输入法装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103365573A (zh) * 2012-03-27 2013-10-23 北京搜狗科技发展有限公司 一种对多键输入字符进行识别的方法和装置
CN105843414A (zh) * 2015-01-13 2016-08-10 北京搜狗科技发展有限公司 输入法的输入修正方法和输入法装置
CN105260113A (zh) * 2015-09-18 2016-01-20 科大讯飞股份有限公司 滑行输入方法、装置及终端设备

Also Published As

Publication number Publication date
CN107678560A (zh) 2018-02-09

Similar Documents

Publication Publication Date Title
CN107678560B (zh) 输入法的候选结果生成方法及装置、存储介质、电子设备
Fowler et al. Effects of language modeling and its personalization on touchscreen typing performance
US9785630B2 (en) Text prediction using combined word N-gram and unigram language models
Mairesse et al. Phrase-based statistical language generation using graphical models and active learning
CN107180025B (zh) 一种新词的识别方法及装置
JP5744228B2 (ja) インターネットにおける有害情報の遮断方法と装置
CN110163181B (zh) 手语识别方法及装置
JP5379138B2 (ja) 領域辞書の作成
US20060020448A1 (en) Method and apparatus for capitalizing text using maximum entropy
CN112395385B (zh) 基于人工智能的文本生成方法、装置、计算机设备及介质
CN111125334A (zh) 一种基于预训练的搜索问答系统
JP2012118977A (ja) 文書類似性計算の機械学習に基づく最適化およびカスタマイズのための方法およびシステム
CN105068997B (zh) 平行语料的构建方法及装置
JP2010531492A (ja) ワード確率決定
JP5710581B2 (ja) 質問応答装置、方法、及びプログラム
CN108182001B (zh) 输入纠错方法及装置、存储介质、电子设备
CN101131706A (zh) 一种查询修正方法及系统
CN108073571B (zh) 一种多语言文本质量评估方法及系统、智能文本处理系统
CN106708798B (zh) 一种字符串切分方法及装置
CN110555140B (zh) 面向口令猜测的语料乘积规则的描述、生成与检测方法
Reffle et al. Unsupervised profiling of OCRed historical documents
CN111274785A (zh) 一种文本纠错方法、装置、设备及介质
CN112417848A (zh) 语料生成方法、装置及计算机设备
CN110991193B (zh) 一种基于OpenKiWi的翻译矩阵模型选择系统
WO2011071174A1 (ja) テキストマイニング方法、テキストマイニング装置及びテキストマイニングプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant