CN113360004A - 输入法候选词推荐方法及装置 - Google Patents

输入法候选词推荐方法及装置 Download PDF

Info

Publication number
CN113360004A
CN113360004A CN202110743668.5A CN202110743668A CN113360004A CN 113360004 A CN113360004 A CN 113360004A CN 202110743668 A CN202110743668 A CN 202110743668A CN 113360004 A CN113360004 A CN 113360004A
Authority
CN
China
Prior art keywords
character
candidate
phrase
current input
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110743668.5A
Other languages
English (en)
Inventor
沈哲吉
贾昌鑫
米坤
黄福林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Thunisoft Information Technology Co ltd
Original Assignee
Beijing Thunisoft Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Thunisoft Information Technology Co ltd filed Critical Beijing Thunisoft Information Technology Co ltd
Priority to CN202110743668.5A priority Critical patent/CN113360004A/zh
Publication of CN113360004A publication Critical patent/CN113360004A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/02Input arrangements using manually operated switches, e.g. using keyboards or dials
    • G06F3/023Arrangements for converting discrete items of information into a coded form, e.g. arrangements for interpreting keyboard generated codes as alphanumeric codes, operand codes or instruction codes
    • G06F3/0233Character input methods
    • G06F3/0237Character input methods using prediction or retrieval techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种输入法候选词推荐方法及装置,用以解决输入法推荐候选词准确性低的技术问题。其中,一种输入法候选词推荐方法,根据当前输入位置前的词组、当前字符,计算对应当前字符的若干候选词的出现概率,并以预设推荐策略排列对应当前字符的若干候选词,实现对输入法中候选词的动态调整。从而使得推荐候选词与上下文的关联程度更高,提高了输入的准确性。

Description

输入法候选词推荐方法及装置
技术领域
本申请涉及输入技术领域,尤其涉及一种输入法候选词推荐方法及装置。
背景技术
随着社会经济、文化和科技水平的不断发展和提高,人们日常使用的词汇和专业领域的词汇也在不断发展。输入法候选词排序的有效调整,能够极大地提高输入法的准确性。
在实现现有技术的过程中,发明人发现:
现有技术中,输入法常通过输入法的词频进行候选词的排序,而忽略了输入的词和当前输入位置前的词组的关系,从而影响输入的准确性。
因此,需要提供一种输入法候选词推荐方案,用以解决输入法推荐候选词准确性低的技术问题。
发明内容
本申请实施例提供一种输入法候选词推荐方案,用以解决输入法推荐候选词准确性低的技术问题。
具体的,一种输入法候选词推荐方法,包括以下步骤:
确定当前输入位置;
获取当前输入位置前的词组;
获取输入字符;
通过分字符模型,对所述输入字符进行划分,生成若干字符单元;
获取对应若干字符单元中第一字符单元的第一字符候选词组集;
根据当前输入位置前的词组,分别计算第一字符候选词组集中若干候选词在确定当前输入位置前的词组、确定第一字符的情况下的出现概率;
根据所述第一字符候选词组集中若干候选词在确定当前输入位置前的词组、确定对应第一字符的情况下的出现概率,以预设推荐策略排列若干候选词。
进一步的,所述获取当前输入位置前的词组,具体包括:
获取当前输入位置前的文本;
通过分词模型,对所述文本进行分词,生成若干分词单元;
确定位置最后的分词单元。
进一步的,所述根据当前输入位置前的词组,分别计算第一字符候选词组集中若干候选词在确定当前输入位置前的词组、对应第二字符的情况下的出现概率,具体包括:
输入当前输入位置前的词组后接第一字符单元的概率、当前输入位置前的词组后接若干候选词中的第一候选词的概率至计算模型,得到第一候选词在确定当前输入位置前的词组、对应第一字符的情况下的出现概率;
其中,所述计算模型表示为:
Figure BDA0003143611630000021
式中,wi-1代表当前输入位置前的词组,si代表第一字符单元,wi代表若干候选词中的第一候选词;P(wi|wi-1)代表当前输入位置前的词组后接第一候选词的概率;P(si|wi-1)代表当前输入位置前的词组后接第一字符单元的概率。
进一步的,所述输入法候选词推荐方法还包括以下步骤:
如果当前输入位置没有文本,则根据第一字符候选词组集中的若干候选词词频,以预设推荐策略排列若干候选词。
进一步的,所述输入法候选词推荐方法还包括以下步骤:
获取输入记录中对应第一字符的输入词组;
获取对应若干字符单元中第二字符单元的第二字符候选词组集;
根据输入记录中对应第一字符的输入词组,分别计算第二字符候选词组集中若干候选词在确定对应第一字符的输入词组、确定第二字符的情况下的出现概率;
根据所述第二字符候选词组集中若干候选词在确定对应第一字符的输入词组、确定对应第二字符的情况下的出现概率,以预设推荐策略排列若干候选词。
本申请实施例还提供一种输入法候选词推荐装置。
具体的,一种输入法候选词推荐装置,包括:
第一获取模块,用于确定当前输入位置;还用于获取当前输入位置前的词组;
第二获取模块,用于获取输入字符;
分字符模块,用于通过分字符模型,对所述输入字符进行划分,生成若干字符单元;
第三获取模块,用于获取对应若干字符单元中第一字符单元的第一字符候选词组集;
计算模块,用于根据当前输入位置前的词组,分别计算第一字符候选词组集中若干候选词在确定当前输入位置前的词组、确定第一字符的情况下的出现概率;
排序模块,用于根据所述第一字符候选词组集中若干候选词在确定当前输入位置前的词组、确定对应第一字符的情况下的出现概率,以预设推荐策略排列若干候选词。
进一步的,所述第一获取模块用于获取当前输入位置前的词组,具体用于:
获取当前输入位置前的文本;
通过分词模型,对所述文本进行分词,生成若干分词单元;
确定位置最后的分词单元。
进一步的,所述计算模块用于根据当前输入位置前的词组,分别计算第一字符候选词组集中若干候选词在确定当前输入位置前的词组、对应第一字符的情况下的出现概率,具体用于:
输入当前输入位置前的词组后接第一字符单元的概率、当前输入位置前的词组后接若干候选词中的第一候选词的概率至计算模型,得到第一候选词在确定当前输入位置前的词组、对应第一字符的情况下的出现概率;
其中,所述计算模型表示为:
Figure BDA0003143611630000031
式中,wi-1代表当前输入位置前的词组,si代表第一字符单元,wi代表若干候选词中的第一候选词;P(wi|wi-1)代表当前输入位置前的词组后接第一候选词的概率;P(si|wi-1)代表当前输入位置前的词组后接第一字符单元的概率。
进一步的,所述排序模块还用于:
如果当前输入位置没有文本,则根据第一字符候选词组集中的若干候选词词频,以预设推荐策略排列若干候选词。
进一步的,所述第一获取模块还用于:
获取输入记录中对应第一字符的输入词组;
所述第三获取模块还用于:
获取对应若干字符单元中第二字符单元的第二字符候选词组集;
所述计算模块还用于:
根据输入记录中对应第一字符的输入词组,分别计算第二字符候选词组集中若干候选词在确定对应第一字符的输入词组、确定第二字符的情况下的出现概率;
所述排序模块还用于:
根据所述第二字符候选词组集中若干候选词在确定对应第一字符的输入词组、确定对应第二字符的情况下的出现概率,以预设推荐策略排列若干候选词。
本申请实施例提供的技术方案,至少具有如下有益效果:
根据当前输入位置前的词组、当前字符,计算对应当前字符的若干候选词的出现概率,并以预设推荐策略排列对应当前字符的若干候选词,实现对输入法中候选词的动态调整。从而使得推荐候选词与上下文的关联程度更高,提高了输入的准确性。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请实施例提供的一种输入法候选词推荐方法的流程图。
图2为本申请实施例提供的一种输入法候选词推荐装置的结构示意图。
100 输入法候选词推荐装置
11 第一获取模块
12 第二获取模块
13 分字符模块
14 第三获取模块
15 计算模块
16 排序模块
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
发明人提供一种输入法候选词推荐方案,用以解决输入法推荐候选词准确性低的技术问题。
请参照图1,本申请公开一种输入法候选词推荐方法,包括以下步骤:
S110:确定当前输入位置。
S120:获取当前输入位置前的词组。
所述当前输入位置可以理解为,当前可以输入文本的区域。例如,input、textare等输入框。也可以是会话窗口、搜索栏等。所述文本可以是文字、数字、字母、符号等中至少一种字符。
具体的,确定当前输入位置可以是确定当前鼠标点击的可以输入文本的区域。也可以是确定当前光标所在的可以输入文本的区域。或者确定其他位置标识符所在的可以输入文本的区域。
在确定当前输入位置后,需要进一步的获取当前输入位置前的词组。以便于后续根据当前输入位置前的词组,推荐与当前输入位置前的词组关联程度较高的候选词。
在本申请提供的一种具体实施方式中,所述获取当前输入位置前的词组,具体包括:
获取当前输入位置前的文本;
通过分词模型,对所述文本进行分词,生成若干分词单元;
确定位置最后的分词单元。
可以理解的是,所述当前输入位置前的文本可以理解为包括字、词、句、段中的至少一种文本组合。所述分词模型可以是一种基于语言语法规则的神经网络算法模型,用于识别语料数据语法成分或语料数据词组词性,并根据语法成分或语料数据词组词性对语料数据进行分词,生成若干分词单元。其中,所述语料数据语法成分可以表现为句子中的主语、谓语、宾语、动语、定语、状语、补语、表语、同位语等语法成分。所述语料数据词组词性可以表现为名词、代词、动词、介词、数词等词组词性。
具体的,所述通过分词模型,对所述文本进行分词,生成若干分词单元可以表现为:输入当前输入位置前的文本至分词模型;之后,所述分词模型根据文本中的名词、代词、动词、介词、数词等词组词性,对当前输入位置前的文本进行分词;最后分词模型将所述当前输入位置前的文本拆分成若干分词单元。
或者所述通过分词模型,对所述文本进行分词,生成若干分词单元还可以表现为:输入当前输入位置前的文本至分词模型;之后,所述分词模型根据文本中的主语、谓语、宾语、动语、定语、状语、补语、表语、同位语等语法成分,对当前输入位置前的文本进行分词;最后分词模型将所述当前输入位置前的文本拆分成若干分词单元。
所述若干分词单元存在位置信息,只需根据所述若干分词单元的位置信息,确定位置最后的分词单元,就可以确定当前输入位置前的词组。
S130:获取输入字符。
S140:通过分字符模型,对所述输入字符进行划分,生成若干字符单元。
所述输入字符可以理解为输入的注音符号,例如汉语拼音所对应的字符。所述分字符模型可以是一种基于语言语法规则的神经网络算法模型,用于识别输入字符,并根据语法成分或拼音规则对输入字符进行划分。
在获取输入字符后,需要通过分字符模型,对所述输入字符进行划分,生成若干字符单元。以便于后续根据当前输入位置前的词组、当前的字符单元,推荐与当前输入位置前的词组、当前输入的字符单元关联程度较高的候选词。
S150:获取对应若干字符单元中第一字符单元的第一字符候选词组集。
S160:根据当前输入位置前的词组,分别计算第一字符候选词组集中若干候选词在确定当前输入位置前的词组、确定第一字符的情况下的出现概率。
可以理解的是,输入字符可能划分成多个字符单元,而其中任意一个字符单元也可能对应着多个候选词。为便于表示,这里将提供若干字符单元中的第一字符单元作为开展,以便对本申请进一步理解。
其中,对应第一字符单元的候选词有若干个,将这些对应第一字符单元的候选词作为第一字符候选词组集。第一字符候选词组集中的若干候选词与当前输入位置前的词组的关联程度不同。需要分别计算第一字符候选词组集中若干候选词在确定当前输入位置前的词组、确定第一字符的情况下的出现概率。
在本申请提供的一种具体实施方式中,所述根据当前输入位置前的词组,分别计算第一字符候选词组集中若干候选词在确定当前输入位置前的词组、对应第一字符的情况下的出现概率,具体可以表现为:
输入当前输入位置前的词组后接第一字符单元的概率、当前输入位置前的词组后接第一字符候选词组集中的第一候选词的概率至计算模型,得到对应第一字符的第一候选词在确定当前输入位置前的词组、确定第一字符的情况下的出现概率。
其中,所述计算模型表示为:
Figure BDA0003143611630000071
式中,wi-1代表当前输入位置前的词组,si代表第一字符单元,wi代表对应第一字符的第一候选词。
具体的,为了计算对应第一字符的第一候选词在确定当前输入位置前的词组、确定第一字符的情况下的出现概率P(wi|si,wi-1),需要构建一个三项联合分布的概率统计。这在中文语境环境下面,需要耗费大量的资源。根据发明人的统计数据,如果构建上述三项联合分布的概率统计,需要占据的运行空间大小达到20GB。
为解决计算对应第一字符的第一候选词在确定当前输入位置前的词组、确定第一字符的情况下的出现概率P(wi|si,wi-1)所需运行空间大的技术问题,发明人对于上述矩阵进行了数学分解。其分解过程如下:
Figure BDA0003143611630000081
式中,wi-1代表当前输入位置前的词组,si代表第一字符单元,wi代表对应第一字符的第一候选词;P(wi|wi-1)代表当前输入位置前的词组后接对应第一字符的第一候选词的概率;P(si|wi-1)代表当前输入位置前的词组后接第一字符单元的概率。
通过上述分解,可以将P(wi|si,wi-1)等价替换为
Figure BDA0003143611630000082
Figure BDA0003143611630000083
公式中的P(wi|wi-1)、P(si|wi-1)均可以通过统计得到,进而在计算P(wi|si,wi-1)时,所需运行空间压缩为10MB。极大地减轻了运行空间负荷,加快了运行速率。
S170:根据所述第一字符候选词组集中若干候选词在确定当前输入位置前的词组、确定对应第一字符的情况下的出现概率,以预设推荐策略排列若干候选词。
可以理解的是,在分别计算第一字符候选词组集中若干候选词在确定当前输入位置前的词组、确定第一字符的情况下的出现概率后,可以根据第一字符候选词组集中若干候选词在确定当前输入位置前的词组、对应第一字符的出现概率,以预设推荐策略排列第一字符候选词组集中若干候选词。
具体的,所述推荐策略可以是根据第一字符候选词组集中若干候选词在确定当前输入位置前的词组、确定第一字符的情况下的出现概率,从大到小排列第一字符候选词组集中的若干候选词。
考虑到当前输入位置前不存在词组的情况,为避免输入法候选词推荐出现运算错误。在本申请提供的一种具体实施方式中,所述输入法候选词推荐方法还包括以下步骤:
如果当前输入位置没有文本,则根据第一字符候选词组集中的若干候选词词频,以预设推荐策略排列若干候选词。
具体的,所述推荐策略还可以是根据第一字符候选词组集中的若干候选词词频,从大到小排列第一字符候选词组集中的若干候选词。
还需要指出的是,在本申请提供的另一种具体实施方式中,所述输入法候选词推荐方法还包括以下步骤:
获取输入记录中对应第一字符的输入词组;
获取对应若干字符单元中第二字符单元的第二字符候选词组集;
根据输入记录中对应第一字符的输入词组,分别计算第二字符候选词组集中若干候选词在确定对应第一字符的输入词组、确定第二字符的情况下的出现概率;
根据所述第二字符候选词组集中若干候选词在确定对应第一字符的输入词组、确定对应第二字符的情况下的出现概率,以预设推荐策略排列若干候选词。
可以理解的是,当对应第一字符的候选词输入后,输入记录中记录对应第一字符的输入词组。为进一步提高输入法推荐候选词的准确性,在推荐对应第二字符的候选词的时候,需要考虑对应第二字符的候选词与对应第一字符的输入词组的关联程度。
具体的,在对应第一字符的候选词输入后,获取输入记录中对应第一字符的输入词组。之后获取对应若干字符单元中第二字符单元的第二字符候选词组集。
然后可以根据输入记录中对应第一字符的输入词组,分别计算第二字符候选词组集中若干候选词在确定对应第一字符的输入词组、确定第二字符的情况下的出现概率。
例如,输入对应第一字符的输入词组后接第二字符单元的概率、对应第一字符的输入词组后接第二字符候选词组集中的第一候选词的概率至计算模型,得到第二字符候选词组集中第一候选词在确定对应第一字符的输入词组、确定第二字符的情况下的出现概率。
其中,所述计算模型表示为:
Figure BDA0003143611630000101
式中,wi-1代表对应第一字符的输入词组,si代表第二字符单元,wi代表第二字符候选词组集中的第一候选词;P(wi|wi-1)代表对应第一字符的输入词组后接第二字符候选词组集中的第一候选词的概率;P(si|wi-1)代表对应第一字符的输入词组后接第二字符单元的概率。公式中的P(wi|wi-1)、P(si|wi-1)均可以通过统计得到。
根据所述第二字符候选词组集中若干候选词在确定对应第一字符的输入词组、确定对应第二字符的情况下的出现概率,以预设推荐策略排列若干候选词。
例如,所述推荐策略可以是根据所述第二字符候选词组集中若干候选词在确定对应第一字符的输入词组、确定对应第二字符的情况下的出现概率,从大到小排列第二字符候选词组集中若干候选词。
当对应第二字符的候选词输入后,输入记录中记录对应第二字符的输入词组。进而在推荐下一字符的候选词的时候,需要考虑对应下一字符的候选词与对应第二字符的输入词组的关联程度,直至输入结束。从而实现输入法动态推荐候选词的效果,进一步提高输入法推荐候选词的准确性。
本申请实施例所提供的输入法候选词推荐方法根据当前输入位置前的词组、当前字符,计算对应当前字符的若干候选词的出现概率,并以预设推荐策略排列对应当前字符的若干候选词,实现对输入法中候选词的动态调整。从而使得推荐候选词与上下文的关联程度更高,提高了输入的准确性。
请参照图2,为支持输入法候选词推荐方法,本申请还提供一种输入法候选词推荐装置100,包括:
第一获取模块11,用于确定当前输入位置;还用于获取当前输入位置前的词组;
第二获取模块12,用于获取输入字符;
分字符模块13,用于通过分字符模型,对所述输入字符进行划分,生成若干字符单元;
第三获取模块14,用于获取对应若干字符单元中第一字符单元的第一字符候选词组集;
计算模块15,用于根据当前输入位置前的词组,分别计算第一字符候选词组集中若干候选词在确定当前输入位置前的词组、确定第一字符的情况下的出现概率;
排序模块16,用于根据所述第一字符候选词组集中若干候选词在确定当前输入位置前的词组、确定对应第一字符的情况下的出现概率,以预设推荐策略排列若干候选词。
可以理解的是,所述第一获取模块11确定的当前输入位置可以理解为,当前可以输入文本的区域。例如,当前输入位置可以是input、textare等输入框。当前输入位置也可以是会话窗口、搜索栏等。所述文本可以是文字、数字、字母、符号等中至少一种字符。
具体的,第一获取模块11确定当前输入位置可以是确定当前鼠标点击的可以输入文本的区域。也可以是确定当前光标所在的可以输入文本的区域。或者确定其他位置标识符所在的可以输入文本的区域。
在第一获取模块11确定当前输入位置后,第一获取模块11需要进一步的获取当前输入位置前的词组。以便于输入法候选词推荐装置100根据当前输入位置前的词组,推荐与当前输入位置前的词组关联程度较高的候选词。
在本申请提供的一种具体实施方式中,所述第一获取模块11获取当前输入位置前的词组,具体包括:
获取当前输入位置前的文本;
通过分词模型,对所述文本进行分词,生成若干分词单元;
确定位置最后的分词单元。
可以理解的是,所述当前输入位置前的文本可以理解为包括字、词、句、段中的至少一种文本组合。所述分词模型可以是一种基于语言语法规则的神经网络算法模型,用于识别语料数据语法成分或语料数据词组词性,并根据语法成分或语料数据词组词性对语料数据进行分词,生成若干分词单元。其中,所述语料数据语法成分可以表现为句子中的主语、谓语、宾语、动语、定语、状语、补语、表语、同位语等语法成分。所述语料数据词组词性可以表现为名词、代词、动词、介词、数词等词组词性。
具体的,所述通过分词模型,对所述文本进行分词,生成若干分词单元可以表现为:输入当前输入位置前的文本至分词模型;之后,所述分词模型根据文本中的名词、代词、动词、介词、数词等词组词性,对当前输入位置前的文本进行分词;最后分词模型将所述当前输入位置前的文本拆分成若干分词单元。
或者所述通过分词模型,对所述文本进行分词,生成若干分词单元还可以表现为:输入当前输入位置前的文本至分词模型;之后,所述分词模型根据文本中的主语、谓语、宾语、动语、定语、状语、补语、表语、同位语等语法成分,对当前输入位置前的文本进行分词;最后分词模型将所述当前输入位置前的文本拆分成若干分词单元。
所述若干分词单元存在位置信息,第一获取模块11只需根据所述若干分词单元的位置信息,确定位置最后的分词单元,就可以确定当前输入位置前的词组。
所述第二获取模块12的获取输入字符可以理解为输入的注音符号,例如汉语拼音所对应的字符。
分字符模块13使用的分字符模型可以是一种基于语言语法规则的神经网络算法模型,用于识别输入字符,并根据语法成分或拼音规则对输入字符进行划分。
在第二获取模块12获取输入字符后,需要分字符模块13通过分字符模型,对所述输入字符进行划分,生成若干字符单元。以便于输入法候选词推荐装置100根据当前输入位置前的词组、当前的字符单元,推荐与当前输入位置前的词组、当前输入的字符单元关联程度较高的候选词。
可以理解的是,分字符模块13可能将输入字符划分成多个字符单元,而其中任意一个字符单元也可能对应着多个候选词。为便于表示,这里将提供若干字符单元中的第一字符单元作为开展,以便对本申请进一步理解。
其中,对应第一字符单元的候选词有若干个,第三获取模块14将这些对应第一字符单元的候选词作为第一字符候选词组集。当所述第三获取模块14获取对应若干字符单元中第一字符单元的第一字符候选词组集,实际上是获取到对应第一字符单元的若干候选词。
第一字符候选词组集中的若干候选词与当前输入位置前的词组的关联程度不同。需要计算模块15分别计算第一字符候选词组集中若干候选词在确定当前输入位置前的词组、确定第一字符的情况下的出现概率。
在本申请提供的一种具体实施方式中,所述计算模块15根据当前输入位置前的词组,分别计算第一字符候选词组集中若干候选词在确定当前输入位置前的词组、对应第一字符的情况下的出现概率,具体可以表现为:
计算模块15输入当前输入位置前的词组后接第一字符单元的概率、当前输入位置前的词组后接第一字符候选词组集中的第一候选词的概率至计算模型,得到对应第一字符的第一候选词在确定当前输入位置前的词组、确定第一字符的情况下的出现概率。
其中,所述计算模型表示为:
Figure BDA0003143611630000131
式中,wi-1代表当前输入位置前的词组,si代表第一字符单元,wi代表对应第一字符的第一候选词。
具体的,为了计算对应第一字符的第一候选词在确定当前输入位置前的词组、确定第一字符的情况下的出现概率P(wi|si,wi-1),需要构建一个三项联合分布的概率统计。这在中文语境环境下面,需要耗费大量的资源。根据发明人的统计数据,如果构建上述三项联合分布的概率统计,需要占据的运行空间大小达到20GB。
为解决计算对应第一字符的第一候选词在确定当前输入位置前的词组、确定第一字符的情况下的出现概率P(wi|si,wi-1)所需运行空间大的技术问题,发明人对于上述矩阵进行了数学分解。其分解过程如下:
Figure BDA0003143611630000141
式中,wi-1代表当前输入位置前的词组,si代表第一字符单元,wi代表对应第一字符的第一候选词;P(wi|wi-1)代表当前输入位置前的词组后接对应第一字符的第一候选词的概率;P(si|wi-1)代表当前输入位置前的词组后接第一字符单元的概率。
通过上述分解,可以将P(wi|si,wi-1)等价替换为
Figure BDA0003143611630000142
Figure BDA0003143611630000143
公式中的P(wi|wi-1)、P(si|wi-1)均可以通过统计得到,进而在计算P(wi|si,wi-1)时,所需运行空间压缩为10MB。极大地减轻了运行空间负荷,加快了运行速率。
在计算模块15分别计算第一字符候选词组集中若干候选词在确定当前输入位置前的词组、确定第一字符的情况下的出现概率后,排序模块16可以根据第一字符候选词组集中若干候选词在确定当前输入位置前的词组、对应第一字符的出现概率,以预设推荐策略排列第一字符候选词组集中若干候选词。
具体的,所述排序模块16可以根据第一字符候选词组集中若干候选词在确定当前输入位置前的词组、确定第一字符的情况下的出现概率,从大到小排列第一字符候选词组集中的若干候选词。
考虑到当前输入位置前不存在词组的情况,为避免输入法候选词推荐出现运算错误。在本申请提供的一种具体实施方式中,所述排序模块16还用于:
如果当前输入位置没有文本,则根据第一字符候选词组集中的若干候选词词频,以预设推荐策略排列若干候选词。
具体的,所述排序模块16还可以根据第一字符候选词组集中的若干候选词词频,从大到小排列第一字符候选词组集中的若干候选词。
还需要指出的是,在本申请提供的另一种具体实施方式中,所述第一获取模块11还用于:
获取输入记录中对应第一字符的输入词组;
所述第三获取模块14还用于:
获取对应若干字符单元中第二字符单元的第二字符候选词组集;
所述计算模块15还用于:
根据输入记录中对应第一字符的输入词组,分别计算第二字符候选词组集中若干候选词在确定对应第一字符的输入词组、确定第二字符的情况下的出现概率;
所述排序模块16还用于:
根据所述第二字符候选词组集中若干候选词在确定对应第一字符的输入词组、确定对应第二字符的情况下的出现概率,以预设推荐策略排列若干候选词
可以理解的是,当对应第一字符的候选词输入后,输入记录中记录对应第一字符的输入词组。为进一步提高输入法推荐候选词的准确性,在输入法候选词推荐装置100推荐对应第二字符的候选词的时候,需要考虑对应第二字符的候选词与对应第一字符的输入词组的关联程度。
具体的,在对应第一字符的候选词输入后,第一获取模块11获取输入记录中对应第一字符的输入词组。之后第三获取模块14获取对应若干字符单元中第二字符单元的第二字符候选词组集。
然后计算模块15可以根据输入记录中对应第一字符的输入词组,分别计算第二字符候选词组集中若干候选词在确定对应第一字符的输入词组、确定第二字符的情况下的出现概率。
例如,计算模块15输入对应第一字符的输入词组后接第二字符单元的概率、对应第一字符的输入词组后接第二字符候选词组集中的第一候选词的概率至计算模型,得到第二字符候选词组集中第一候选词在确定对应第一字符的输入词组、确定第二字符的情况下的出现概率。
其中,所述计算模型表示为:
Figure BDA0003143611630000161
式中,wi-1代表对应第一字符的输入词组,si代表第二字符单元,wi代表第二字符候选词组集中的第一候选词;P(wi|wi-1)代表对应第一字符的输入词组后接第二字符候选词组集中的第一候选词的概率;P(si|wi-1)代表对应第一字符的输入词组后接第二字符单元的概率。公式中的P(wi|wi-1)、P(si|wi-1)均可以通过统计得到。
排序模块16根据所述第二字符候选词组集中若干候选词在确定对应第一字符的输入词组、确定对应第二字符的情况下的出现概率,以预设推荐策略排列若干候选词。
例如,所述排序模块16可以根据所述第二字符候选词组集中若干候选词在确定对应第一字符的输入词组、确定对应第二字符的情况下的出现概率,从大到小排列第二字符候选词组集中若干候选词。
当对应第二字符的候选词输入后,输入记录中记录对应第二字符的输入词组。进而在输入法候选词推荐装置100推荐下一字符的候选词的时候,考虑对应下一字符的候选词与对应第二字符的输入词组的关联程度,直至输入结束。从而实现输入法动态推荐候选词的效果,进一步提高输入法推荐候选词的准确性。
本申请实施例所提供的输入法候选词推荐装置100根据当前输入位置前的词组、当前字符,计算对应当前字符的若干候选词的出现概率,并以预设推荐策略排列对应当前字符的若干候选词,实现对输入法中候选词的动态调整。从而使得推荐候选词与上下文的关联程度更高,提高了输入的准确性。
需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,有语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种输入法候选词推荐方法,其特征在于,包括以下步骤:
确定当前输入位置;
获取当前输入位置前的词组;
获取输入字符;
通过分字符模型,对所述输入字符进行划分,生成若干字符单元;
获取对应若干字符单元中第一字符单元的第一字符候选词组集;
根据当前输入位置前的词组,分别计算第一字符候选词组集中若干候选词在确定当前输入位置前的词组、确定第一字符的情况下的出现概率;
根据所述第一字符候选词组集中若干候选词在确定当前输入位置前的词组、确定对应第一字符的情况下的出现概率,以预设推荐策略排列若干候选词。
2.如权利要求1所述的输入法候选词推荐方法,其特征在于,所述获取当前输入位置前的词组,具体包括:
获取当前输入位置前的文本;
通过分词模型,对所述文本进行分词,生成若干分词单元;
确定位置最后的分词单元。
3.如权利要求2所述的输入法候选词推荐方法,其特征在于,所述根据当前输入位置前的词组,分别计算第一字符候选词组集中若干候选词在确定当前输入位置前的词组、对应第一字符的情况下的出现概率,具体包括:
输入当前输入位置前的词组后接第一字符单元的概率、当前输入位置前的词组后接若干候选词中的第一候选词的概率至计算模型,得到第一候选词在确定当前输入位置前的词组、对应第一字符的情况下的出现概率;
其中,所述计算模型表示为:
Figure FDA0003143611620000011
式中,wi-1代表当前输入位置前的词组,si代表第一字符单元,wi代表若干候选词中的第一候选词;P(wi|wi-1)代表当前输入位置前的词组后接第一候选词的概率;P(si|wi-1)代表当前输入位置前的词组后接第一字符单元的概率。
4.如权利要求3所述的输入法候选词推荐方法,其特征在于,所述输入法候选词推荐方法还包括以下步骤:
如果当前输入位置没有文本,则根据第一字符候选词组集中的若干候选词词频,以预设推荐策略排列若干候选词。
5.如权利要求1所述的输入法候选词推荐方法,其特征在于,所述输入法候选词推荐方法还包括以下步骤:
获取输入记录中对应第一字符的输入词组;
获取对应若干字符单元中第二字符单元的第二字符候选词组集;
根据输入记录中对应第一字符的输入词组,分别计算第二字符候选词组集中若干候选词在确定对应第一字符的输入词组、确定第二字符的情况下的出现概率;
根据所述第二字符候选词组集中若干候选词在确定对应第一字符的输入词组、确定对应第二字符的情况下的出现概率,以预设推荐策略排列若干候选词。
6.一种输入法候选词推荐装置,其特征在于,所述输入法候选词推荐装置包括:
第一获取模块,用于确定当前输入位置;还用于获取当前输入位置前的词组;
第二获取模块,用于获取输入字符;
分字符模块,用于通过分字符模型,对所述输入字符进行划分,生成若干字符单元;
第三获取模块,用于获取对应若干字符单元中第一字符单元的第一字符候选词组集;
计算模块,用于根据当前输入位置前的词组,分别计算第一字符候选词组集中若干候选词在确定当前输入位置前的词组、确定第一字符的情况下的出现概率;
排序模块,用于根据所述第一字符候选词组集中若干候选词在确定当前输入位置前的词组、确定对应第一字符的情况下的出现概率,以预设推荐策略排列若干候选词。
7.如权利要求6所述的输入法候选词推荐装置,其特征在于,所述第一获取模块用于获取当前输入位置前的词组,具体用于:
获取当前输入位置前的文本;
通过分词模型,对所述文本进行分词,生成若干分词单元;
确定位置最后的分词单元。
8.如权利要求7所述的输入法候选词推荐装置,其特征在于,所述计算模块用于根据当前输入位置前的词组,分别计算第一字符候选词组集中若干候选词在确定当前输入位置前的词组、对应第一字符的情况下的出现概率,具体用于:
输入当前输入位置前的词组后接第一字符单元的概率、当前输入位置前的词组后接若干候选词中的第一候选词的概率至计算模型,得到第一候选词在确定当前输入位置前的词组、对应第一字符的情况下的出现概率;
其中,所述计算模型表示为:
Figure FDA0003143611620000031
式中,wi-1代表当前输入位置前的词组,si代表第一字符单元,wi代表若干候选词中的第一候选词;P(wi|wi-1)代表当前输入位置前的词组后接第一候选词的概率;P(si|wi-1)代表当前输入位置前的词组后接第一字符单元的概率。
9.如权利要求8所述的输入法候选词推荐装置,其特征在于,所述排序模块还用于:
如果当前输入位置没有文本,则根据第一字符候选词组集中的若干候选词词频,以预设推荐策略排列若干候选词。
10.如权利要求6所述的输入法候选词推荐装置,其特征在于,所述第一获取模块还用于:
获取输入记录中对应第一字符的输入词组;
所述第三获取模块还用于:
获取对应若干字符单元中第二字符单元的第二字符候选词组集;
所述计算模块还用于:
根据输入记录中对应第一字符的输入词组,分别计算第二字符候选词组集中若干候选词在确定对应第一字符的输入词组、确定第二字符的情况下的出现概率;
所述排序模块还用于:
根据所述第二字符候选词组集中若干候选词在确定对应第一字符的输入词组、确定对应第二字符的情况下的出现概率,以预设推荐策略排列若干候选词。
CN202110743668.5A 2021-07-01 2021-07-01 输入法候选词推荐方法及装置 Pending CN113360004A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110743668.5A CN113360004A (zh) 2021-07-01 2021-07-01 输入法候选词推荐方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110743668.5A CN113360004A (zh) 2021-07-01 2021-07-01 输入法候选词推荐方法及装置

Publications (1)

Publication Number Publication Date
CN113360004A true CN113360004A (zh) 2021-09-07

Family

ID=77537717

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110743668.5A Pending CN113360004A (zh) 2021-07-01 2021-07-01 输入法候选词推荐方法及装置

Country Status (1)

Country Link
CN (1) CN113360004A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117251061A (zh) * 2023-11-17 2023-12-19 广东省电信规划设计院有限公司 基于aigc的同屏智能输入方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117251061A (zh) * 2023-11-17 2023-12-19 广东省电信规划设计院有限公司 基于aigc的同屏智能输入方法及装置
CN117251061B (zh) * 2023-11-17 2024-03-15 广东省电信规划设计院有限公司 基于aigc的同屏智能输入方法及装置

Similar Documents

Publication Publication Date Title
Oakes Statistics for corpus linguistics
EP1482414B1 (en) Translating method for emphasised words
Conroy et al. Left-brain/right-brain multi-document summarization
Filippova et al. Dependency tree based sentence compression
US8386240B2 (en) Domain dictionary creation by detection of new topic words using divergence value comparison
Evans Applying machine learning toward an automatic classification of it
CN110427618B (zh) 对抗样本生成方法、介质、装置和计算设备
JP5379138B2 (ja) 領域辞書の作成
JP6404511B2 (ja) 翻訳支援システム、翻訳支援方法、および翻訳支援プログラム
Erdmann et al. Improving the extraction of bilingual terminology from Wikipedia
CN115186654B (zh) 一种公文文本摘要生成方法
CN111950301A (zh) 一种中译英的英语译文质量分析方法及系统
Ostrogonac et al. Morphology-based vs unsupervised word clustering for training language models for Serbian
CN113360004A (zh) 输入法候选词推荐方法及装置
Sharma et al. Word prediction system for text entry in Hindi
Kapočiūtė-Dzikienė et al. Improving topic classification for highly inflective languages
Wu et al. Transfer-based statistical translation of Taiwanese sign language using PCFG
Bergler Conveying attitude with reported speech
US20220229986A1 (en) System and method for compiling and using taxonomy lookup sources in a natural language understanding (nlu) framework
US20220229990A1 (en) System and method for lookup source segmentation scoring in a natural language understanding (nlu) framework
Raharjo et al. Detecting proper nouns in indonesian-language translation of the quran using a guided method
Juola et al. A comparative assessment of the difficulty of authorship attribution in Greek and in English
Demilie et al. Automated all in one misspelling detection and correction system for Ethiopian languages
Linares et al. A hybrid language model based on a combination of n-grams and stochastic context-free grammars
JP5128328B2 (ja) 曖昧性評価装置およびプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination