CN102193639A - 一种语句生成方法及装置 - Google Patents

一种语句生成方法及装置 Download PDF

Info

Publication number
CN102193639A
CN102193639A CN201010120044XA CN201010120044A CN102193639A CN 102193639 A CN102193639 A CN 102193639A CN 201010120044X A CN201010120044X A CN 201010120044XA CN 201010120044 A CN201010120044 A CN 201010120044A CN 102193639 A CN102193639 A CN 102193639A
Authority
CN
China
Prior art keywords
candidate word
statement
mark
dictionary
correspondence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201010120044XA
Other languages
English (en)
Other versions
CN102193639B (zh
Inventor
薛永刚
陈培军
秦吉胜
侯磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201010120044.XA priority Critical patent/CN102193639B/zh
Publication of CN102193639A publication Critical patent/CN102193639A/zh
Priority to HK12100154.8A priority patent/HK1159811A1/zh
Application granted granted Critical
Publication of CN102193639B publication Critical patent/CN102193639B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本申请公开了一种语句生成方法及装置,用以解决现有技术中拼音输入法生成的语句准确性低的问题。该方法将拼音流切分后的拼音音节序列中的各拼音音节子序列,与词典中保存的各词条的拼音进行匹配,确定该拼音音节子序列的每个候选词,将每个候选词组成对应的语句,针对每个语句的候选词与该候选词之前或之后的候选词组成的词组,及词典中每个词组对应的权重,确定该候选词对应的分数,根据所述每个语句中每个候选词的分数,确定每个语句的总分数,将总分数最大的语句作为生成的语句。由于只有经常出现的词组对应的权重才会比较高,即经常出现的词组一定是用户经常使用,或满足语言规则的词组,因此采用该方法可以使生成的语句更加的准确。

Description

一种语句生成方法及装置
技术领域
本申请涉及汉字输入技术领域,尤其涉及一种语句生成方法及装置。
背景技术
输入法(Input Method Editor,IME)是利用键盘,根据一定的编码规则,实现汉字输入的一种方法,而拼音输入法则是利用键盘输入拼音,从而实现汉字输入的方法。在通过拼音输入法进行汉字输入的过程中,针对用户输入的拼音流,需要将该拼音流进行切分,切分为多个合法的拼音音节序列,并将切分后的每个拼音音节转换为对应的汉字,从而实现语句的输出。
当把用户输入的汉字切分为拼音音节序列时,由于每个拼音音节对应的候选词方案很多,因此根据用户输入的拼音流可能得到很多的语句。在现有技术中一般采用最大概率法从众多的语句中选择一个输出,即在多个候选词的组合中确定概率最大的一个组合方法,作为最后的语句输出结果。
如图1所示根据拼音流确定的多个候选词组合方案,当输入拼音流“dongtianhaoleng”并将拼音流切分为多个拼音音节序列时,每个音频音节对应不同的候选词,如图1所示,对于拼音音节“dong”其对应的候选词包括:动、懂……东等,对于拼音音节“tian”其对应的候选词包括:添、填……天等,对于拼音音节“hao”其对应的候选词包括:豪、号……好等,对于拼音音节“leng”其对应的候选词包括:棱、楞……冷等,并且对于两个拼音音节“冬天”其本身也对应很多候选词例如冬天、洞天……动天等。因此在根据最大概率法确定输出的语句时,一般选择概率较大的候选词组合,如图1虚线所示即为选择的概率最大的候选词组合“冬天好冷”。
由于在采用最大概率法进行语句输出时,选择概率最大的候选词组合,但是即使每个候选词的权重都很大,多个权重很大的候选词组合成的语句也可能并不是用户所需的语句,从而导致语句的生成结果准确性较低。
发明内容
有鉴于此,本申请实施例提供一种语句生成方法及装置,用以解决现有技术中拼音输入法生成的语句准确性低的问题。
本申请实施例提供的一种语句生成方法,包括:
将用户输入的拼音流切分后获取的拼音音节序列中的各拼音音节子序列,与词典中保存的各词条的拼音进行匹配,将匹配成功的拼音对应的每个词条作为该拼音音节子序列的每个候选词;
将每个拼音音节子序列的每个候选词组成对应的语句,针对每个语句的每个候选词,根据该候选词与该候选词之前的候选词组成的词组,及所述词典中每个词组对应的权重,确定该候选词对应的分数;
根据所述每个语句中每个候选词的分数,确定所述每个语句的总分数,并根据确定的总分数,将总分数最大的语句作为生成的语句。
本申请实施例提供的一种语句生成装置,包括:
匹配模块,用于将用户输入的拼音流切分后获取的拼音音节序列中的各拼音音节子序列,与词典中保存的各词条的拼音进行匹配,将匹配成功的拼音对应的每个词条作为该拼音音节子序列的每个候选词;
分数确定模块,用于将每个拼音音节子序列的每个候选词组成对应的语句,针对每个语句的每个候选词,根据该候选词与该候选词之前的候选词组成的词组,及所述词典中每个词组对应的权重,确定该候选词对应的分数;
语句生成模块,用于根据所述每个语句中每个候选词的分数,确定所述每个语句的总分数,并根据确定的总分数,将总分数最大的语句作为生成的语句。
本申请实施例提供的一种语句生成方法,包括:
将用户输入的拼音流切分后获取的拼音音节序列中的各拼音音节子序列,与词典中保存的各词条的拼音进行匹配,将匹配成功的拼音对应的每个词条作为该拼音音节子序列的每个候选词;
将每个拼音音节子序列的每个候选词组成对应的语句,针对每个语句的每个候选词,根据该候选词与该候选词之后的候选词组成的词组,及所述词典中每个词组对应的权重,确定该候选词对应的分数;
根据所述每个语句中每个候选词的分数,确定所述每个语句的总分数,并根据确定的总分数,将总分数最大的语句作为生成的语句。
本申请实施例提供的一种语句生成装置,包括:
匹配模块,用于将用户输入的拼音流切分后获取的拼音音节序列中的各拼音音节子序列,与词典中保存的各词条的拼音进行匹配,将匹配成功的拼音对应的每个词条作为该拼音音节子序列的每个候选词;
分数确定模块,用于将每个拼音音节子序列的每个候选词组成对应的语句,针对每个语句的每个候选词,根据该候选词与该候选词之后的候选词组成的词组,及所述词典中每个词组对应的权重,确定该候选词对应的分数;
语句生成模块,用于根据所述每个语句中每个候选词的分数,确定所述每个语句的总分数,并根据确定的总分数,将总分数最大的语句作为生成的语句。
本申请实施例提供了一种语句生成方法及装置,该方法包括:将拼音流切分后的拼音音节序列中的各拼音音节子序列,与词典中保存的各词条的拼音进行匹配,将匹配成功的拼音对应的每个词条作为该拼音音节子序列的每个候选词,将每个候选词组成对应的语句,针对每个语句的每个候选词与该候选词之前或之后的候选词组成的词组,及词典中每个词组对应的权重,确定该候选词对应的分数,根据所述每个语句中每个候选词的分数,确定所述每个语句的总分数,并根据确定的总分数,将总分数最大的语句作为生成的语句。由于只有经常出现的词组对应的权重才会比较高,即经常出现的词组一定是用户经常使用,或满足语言规则的词组,因此采用该方法可以使生成的语句更加的准确。
附图说明
图1为现有技术中根据拼音流确定的多个候选词组合方案;
图2为本申请实施例提供的语句生成的过程;
图3为本申请实施例提供的语句生成的详细过程;
图4为本申请实施例提供的语句生成的另一详细过程;
图5为本申请实施例提供的语句生成的装置结构示意图;
图6为本申请实施例提供的另一语句生成的装置结构示意图。
具体实施方式
本申请实施例为了有效的提高语句输出的准确性,提供了一种语句生成的方法,在该方法中充分考虑了构成语句的每两个候选词组成的词组出现的权重,确定相应的分数,并进而确定语句的总分数,根据确定的语句的总分数,选择总分数最大的语句作为生成的语句输出。因为只有经常出现的词组对应的权重才会比较高,即经常出现的词组一定是用户经常使用,或满足语言规则的词组,因此采用该方法可以使生成的语句更加的准确。本申请实施例中的语句生成方法可以适用于生成一个完整的句子,也可以适用于生成一个完整句子的组成部分,且该语句可以是长句也可以是短句,本申请对此并不做限定。
下面结合说明书附图,对本申请实施例进行详细说明。
图2为本申请实施例提供的语句生成的过程,该过程包括以下步骤:
S201:对用户输入的拼音流进行切分,切分为包括至少两个拼音音节子序列的拼音音节序列,其中每个拼音子序列中包括至少一个拼音音节。
对用户输入的拼音流进行切分,将其切分为合法的拼音音节序列,其中在该切分后获得的合法的拼音音节序列中包括至少两个拼音音节子序列。
S202:将拼音音节序列中的各拼音音节子序列与数据库中字典保存的各词条的拼音进行匹配,将匹配成功的拼音对应的每个词条作为该拼音音节子序列的每个候选词。
在本申请实施例中为了便于查询每个候选词,在数据库中保存有一元词典,该一元词典中保存有多个词条,每个词条对应的拼音,以及每个词条对应的权重。
S203:将每个拼音音节子序列对应的每个候选词组成对应的语句。
根据拼音音节序列中每个拼音音节子序列对应的每个候选词,组成对应的每个语句,在本申请实施例中由于每个拼音音节子序列对应多个候选词,因此也会组成多个语句。
例如拼音音节序列中包括拼音音节子序列1、2、3,其中拼音音节子序列1对应的候选词分别为A,拼音音节子序列2对应的候选词为D、E,拼音音节子序列3对应的候选词为F、G,则该拼音音节序列123组成的对应语句包括ADF,ADG,AEF,AEG。
S204:针对每个语句的每个候选词,根据该候选词与该候选词之前的候选词组成的词组,及数据库保存的词典中每个词组对应的权重,确定该候选词对应的分数。
在本申请实施例中为了充分考虑不同词条之间的共同出现的关系,在数据库中保存了二元词典,在二元词典中保存有多个词组,并且保存有每个词组对应的权重,其中每个词组包括两个词条。同时由于每个语句由对应的候选词构成,针对每个语句中的每个候选词,由于每个候选词对应的分数的确定过程相同,因此针对语句中的每个候选词,在确定该候选词的分数时,根据该候选词与该候选词之前的候选词组成的词组,确定该候选词的对应的分数。
S205:根据所述每个语句中每个候选词的分数,确定所述每个语句的总分数,并根据确定的总分数,将总分数最大的语句作为生成的语句。
由于在本申请实施例中考虑了词组出现的权重,在确定分数时,根据每个词组出现的权重,以及设置的权重系数,确定每个候选词的分数。
本申请实施例的词典中包括一元词典和二元词典,其中一元词典中保存有多个词条,每个词条对应的拼音,并且保存有每个词条对应的权重,表1为本申请实施例中一元词典的存储结构示意。
  词条   拼音   权重
  冬天   D ong’t ian   100
  洞天   D ong’t ian   54
  朝阳   Zh ao’y ang   280
  朝阳   Ch ao’y ang   89
  朝野   Ch ao’y e   752
  …   …   …
  阿里巴巴   A’l I’b a’b a   189
表1
二元词典中保存有多个词组,并且保存有每个词组对应的权重,其中每个词组包括两个词条,表2为二元词典的存储结构示意。其中在本申请实施例中一元词典和二元词典中保存的信息,根据对大量的数据信息学习获取,即通过对大量数据信息的扫描、分词,并统计分词后的每个词条的权重,以及每个词组的权重,将统计的信息分别保存即可获取一元词典和二元词典。
  第一词条   第二词条   权重
  打   酱油   300
  天气   真好   56
  举行   会议   765
  词典   大小   32
  …   …   …
  淘宝   卖家   650
表2
在一元词典中保存了词条信息,并在二元词典中保存了词组的信息后,当对用户输入的拼音流进行转换生成语句时,由于各拼音音节子序列与一元词典中拼音匹配成功时,匹配成功的拼音对应的词条很多,在本申请实施例中将匹配成功的拼音对应的每个词条作为该拼音音节子序列的每个候选词。由于每个拼音音节子序列对应的候选词很多,按照拼音音节序列中的各拼音音节子序列组合而成的语句也会很多,针对每个语句中每两个候选词组成的词组是否在二元词典中出现,可以确定语句中每个候选词对应的分数,从而可以确定语句的总分数。
在本申请实施例中为了提高语句生成的效率,减小语句生成的工作量,在每个语句中,当确定了部分候选词的分数后,可以根据该已确定分数的候选词,及该已确定分数的候选词对应的分数,确定每个语句的子分数,根据确定的每个语句的子分数,按照子分数由大到小的顺序选择设定数量的语句作为准备确定总分数的语句。在该准备确定总分数的语句中,每确定一个候选词的分数,即可计算该语句的子分数,根据确定的子分数及设定数量,进行准备确定总分数的语句的选择。由于选择了设定数量的语句作为后续确定总分数的语句,进行计算的语句数量减小,从而减小了存储空间,进而提高了语句生成的效率。
下面通过具体的实施例详细说明,确定每个语句的总分数的过程。当确定了拼音音节序列对应的每个语句后,针对每个语句中的每个候选词,判断该候选词是否为该语句的第一个候选词,当该候选词为该语句的第一个候选词时,由于第一个候选词之前不存在其他的候选词,因此在确定第一个候选词的分数时,在一元词典中查找与该候选词匹配的词条对应的权重,根据该权重及保存的第二权重系数,确定该候选词的分数。其中,第二权重系数为不能与其他候选词组成词组的候选词对应的权重系数,可以为0和1之间的数。
当该候选词非第一个候选词时,该候选词之前的候选词存在,因此在确定该候选词对应的分数时,将该候选词与该候选词之前的候选词组成词组,判断在二元词典中是否存在该词组,当二元词典中存在该词组时,查找该词组对应的权重,根据查找的权重及保存的第一权重系数,确定该候选词对应的分数。其中第一权重系数为能够组成词组的候选词对应的权重系数,可以为0和1之间的数,并且每次在生成语句的过程中,第一权重系数大于第二权重系数。
当在二元词典中不存在该词组时,在一元词典中查找与该该候选词匹配的词条对应的权重,根据查找的该权重及保存的该第二权重系数,确定该该候选词对应的分数。
当依据上述方法确定了每个语句中每个候选词的分数后,可以将每个候选词对应的分数进行乘积运算,或进行累加运算,根据该乘积或累加运算得到的分数,作为该语句的总分数。例如语句包括A、B、C三个候选词,其中候选词A对应的分数为W1,根据候选词A和B组成的词组确定候选词B对应的分数为W2,根据候选词B和C组成的词组确定候选词C对应的分数为W3,则该语句的总分数为W1+W2+W3,或者该语句的总分数为W1×W2×W3。
为了提高语句生成的效率,减小语句生成的计算工作量,在本申请实施例中当根据切分后的拼音音节序列中的第一个拼音音节子序列,与一元词典保存的各词条的拼音进行匹配,将匹配成功的拼音对应的每个词条作为第一个拼音音节子序列的每个候选词,当根据一元词典中保存的每个词条的权重,以及保存的第二权重系数确定了每个候选词的分数后,可以根据分数计算的结果,按照分数由大到小的顺序选择设定数量的候选词作为待生成的语句中的第一个拼音音节子序列对应的候选词。
之后,将第二个拼音音节子序列对应的每个候选词及选择的第一个拼音音节对应的每个候选词,分别组成词组,针对每个词组,确定第二个拼音音节子序列对应的候选词的分数,将该第二个拼音音节子序列对应的候选词的分数,及该词组中第一个拼音音节子序列对应的候选词的分数进行乘积或累加运算,确定由该词组组成的语句的子分数,根据该子分数,按照子分数由大到小的顺序选择子分数较大的设定数量的语句作为准备确定总分数的语句。
在进行后续计算过程中,依次确定每个语句的子分数,按照子分数由大到小的顺序选择子分数较大的设定数量的语句作为准备确定总分数的语句,因此组成的语句的数量会相应的减小,从而减小在计算过程中由于存储每个语句而占用的存储空间,并且同样也可以减小后续确定每个语句的总分数的工作量,从而有效的提高语句生成的效率。
本申请实施例中在根据拼音音节序列中的各拼音音节子序列,与一元词典中保存的各词条的拼音进行匹配,获取每个拼音音节子序列对应的每个候选词时,由于拼音音节序列中与一元词典中各词条的拼音匹配的拼音音节的数量不同,即拼音音节子序列包含的拼音音节的数量不同,因此获取的候选词包含的字节的数量也不同。
例如对于拼音音节序列“dong’tian’hao’leng”,当拼音音节序列中的拼音音节子序列“dong”与一元词典中各词条的拼音匹配时,匹配成功的为拼音“dong”的词条,该词条可能是“东”,“动”“懂”等。当然在匹配的过程中,也可能是拼音音节序列中的拼音音节子序列“dong’tian”与一元词典中各词条的拼音匹配时,匹配成功的为拼音为“dong’tian”的词条,该词条可能是“冬天”,“洞天”“动天”等。
因此由于获取的每个候选词的长度不同,在根据权重及保存的权重系数确定每个语句的子分数时,可以针对候选词构成的语句的长度进行选择。例如当拼音音节子序列对应的候选词的长度为2时,例如为“dong’tian”,则可以确定该候选词组成的语句对应的子分数,即确定“dong’tian”对应的候选词组成的语句对应的子分数,当然也可以根据拼音音节子序列“dong”和“tian”分别对应的候选词确定组成的语句的子分数,根据该“dong”和“tian”组成的语句的子分数以及“dong’tian”组成的语句的子分数,按照子分数由大到小的顺序选择子分数较大的设定数量的语句作为准备确定总分数的语句。
图3为本申请实施例提供的语句生成的详细过程,该过程包括以下步骤:
S301:对用户输入的拼音流“dongtianleng”进行切分,切分为包括3个拼音音节的拼音音节序列“dong’tian’leng”。
S302:将拼音音节序列中的每个拼音音节子序列,与一元词典中保存的各词条的拼音进行匹配,将匹配成功的拼音对应的每个词条作为该拼音音节子序列的每个候选词。
例如对于拼音音节子序列“dong”,在一元词典中匹配与拼音音节子序列“dong”匹配的拼音,将匹配成功的拼音对应的每个词条“动”、“东”、“冬”等,作为该拼音音节子序列“dong”对应的每个候选词。当拼音音节子序列为“dong’tian”时,根据该拼音音节子序列“dong’tian”,在一元词典中匹配与拼音音节子序列“dong’tian”匹配的拼音,将匹配成功的拼音对应的每个词条“冬天”、“洞天”、“动天”,作为该拼音音节子序列“dong’tian”对应的每个候选词。
S303:在确定的每个拼音音节子序列对应的每个候选词中,根据拼音音节序列中各拼音音节子序列的顺序,将每个拼音音节子序列对应的每个候选词组成对应的语句。
例如,获取拼音音节序列“dong’tian’leng”中与每个拼音音节子序列对应的每个候选词包括,与拼音音节子序列“dong”对应的候选词包括“东”,“动”,与拼音音节子序列“tian”对应的候选词包括“田”,与拼音音节子序列“leng”对应的候选词包括“冷”,“棱”,以及与拼音音节子序列“dong’tian”对应的候选词包括“冬天”,“洞天”,则可以组成的语句包括“东田冷”、“东田棱”、“动田棱”、“动田冷”、“冬天冷”、“洞天棱”等。
S304:针对每个语句中的每个候选词,判断当前进行分数确定的候选词是否为该语句的第一个拼音音节子序列对应的候选词,即判断该候选词是否为该语句的第一个候选词,当判断结果为是时,进行步骤S305,否则,进行步骤S306。
例如针对语句“动田冷”,当前进行判断的候选词为“动”时,则可以确定该候选词为第一个拼音音节子序列“dong”对应的候选词,即该候选词为该语句的第一个候选词。当针对语句“冬天冷”,当前进行判断的候选词为“冬天”时,则可以确定该候选词为第一个拼音音节子序列“dong’tian”对应的候选词,即该候选词为该语句的第一个候选词。
S305:在一元词典中查找与该候选词匹配的词条对应的权重,根据查找的该权重以及保存的第二权重系数R2,确定该该候选词对应的分数。
其中确定该候选词对应的分数的过程包括:计算该候选词对应的权重,及第二权重系数R2的乘积,将乘积结果确定为该候选词对应的分数。
S306:确定该语句中该候选词之前的候选词,将该候选词与该候选词之前的候选词组合,根据组合后获得的词组,判断该词组是否在二元词典中存在,当二元词典中不存在该词组时,进行步骤S307,否则,进行步骤S308。
S307:在一元词典中查找与该候选词匹配的词条对应的权重,根据查找的所述权重,以及保存的第二权重系数R2,确定该候选词对应的分数。
S308:查找该候选词和该候选词之前的候选词组成的词组在二元词典中对应的权重,根据查找的权重,以及保存的第一权重系数R1,确定该候选词对应的分数。
例如该候选词为“冷”,该候选词之前的候选词为“洞天”,则该候选词和该候选词之前的候选词组成词组“洞天冷”,在二元词典中查找是否存在“洞天冷”的词组。当二元词典中不存在“洞天冷”时,在一元词典中查找与该候选词“冷”对应的词条“冷”对应的权重,根据该权重以及保存的第二权重系数R2,确定该候选词“冷”对应的分数。当二元词典中存在“洞天冷”时,则在二元词典中查找“洞天冷”对应的权重,根据该权重以及保存的第一权重系数R1,确定该候选词“冷”对应的分数。
S309:针对每个语句,根据每个语句中每个候选词对应的分数,确定每个语句的总分数,根据每个语句的总分数,将总分数最大的语句作为生成的语句。
在本申请实施例中当至少两个语句的总分数都最大时,在该至少两个语句中任意选择一个作为生成的语句。
在本申请实施例中还可以根据图4所示的语句的生成方法,进行语句的生成,该生成方法包括:
S401:对用户输入的拼音流“dongtianleng”进行切分,切分为包括3个拼音音节的拼音音节序列“dong’tian’leng”。
S402:将拼音音节序列中的第一个拼音音节子序列,与一元词典中保存的各词条的拼音进行匹配,将匹配成功的拼音对应的每个词条作为对应第一个拼音音节子序列的每个第一个候选词。
其中,该第一个拼音音节子序列可以为第一个拼音音节,也可以为前几个拼音音节组成的第一拼音音节子序列。例如,该第一拼音音节子序列可以为第一个拼音音节“dong”,也可以为第一个拼音音节和第二个拼音音节组成的第一拼音音节子序列“dong’tian”,根据每个第一个拼音子序列可以在一元词典中确定每个第一个拼音子序列对应的每个第一个候选词。
S403:在一元词典中查找与每个第一个候选词对应的词条的权重,根据该权重,以及保存的第二权重系数,确定由该每个第一个候选词组成的语句的子分数。
S404:根据该每个语句的子分数,按照子分数由大到小的顺序选择子分数较大的设定数量的语句作为准备确定总分数的语句。例如按照子分数由大到小的顺序选择子分数较大的20个或30个第一个候选词组成的语句作为准备确定总分数的语句。
在本申请实施例中由于第一个选候选词长度不同,例如可以为“东”,“动”“懂”等或“冬天”,“洞天”,“动天”等,因此在选择第一个候选词组成的语句时,也可以根据第一个候选词长度的不同选择对应数量的第一个候选词组成的语句进行后续计算,例如当选择20个第一个候选词时,可以选择第一个候选词长度为1,构成的语句的子分数较大的10个语句作为准备确定总分数的语句,选择第一个候选词长度为2,构成的语句的子分数较大的10个语句作为准备确定总分数的语句,具体选择可以根据需要灵活设定。
S405:将第二个拼音音节子序列与一元词典中保存的各词条的拼音进行匹配,将匹配成功的拼音对应的每个词条作为第二个拼音音节子序列的每个第二个候选词。
当第一个拼音音节子序列为“dong”时,第二个拼音音节子序列为“tian”,当第一个拼音音节子序列为“dong’tian”时,第二个拼音音节子序列为“leng”。
S406:将选择出的每个第一个候选词,和根据匹配确定的每个第二个候选词组成语句,并根据每个语句中第一个候选词和第二个候选词组成词组,确定二元词典中是否存在该词组,当确定存在时,进行步骤S407,否则,进行步骤S408。
S407:在二元词典中查找该词组对应的权重,并根据保存的第一权重系数R1,确定该第二个候选词对应的分数。
S408:在一元词典中查找与该第二个候选词匹配的词条对应的权重,根据该权重以及保存的第二权重系数R2,确定该第二个候选词对应的分数。
S409:根据每个语句中第一个候选词对应的分数,以及第二个候选词对应的分数,确定第一个候选词与第二个候选词组成的该语句的子分数,根据所述子分数,按照子分数由大到小的顺序选择子分数较大的设定数量的语句作为准备确定总分数的语句。
S410:判断该第二个拼音音节子序列是或否为拼音音节序列中最后一个拼音音节子序列,当判断结果为是时,进行步骤S411,否则,将第三个拼音音节子序列作为第二个拼音音节,将选择的每个语句中第二个拼音音节子序列作为第一个拼音音节子序列,进行步骤S405,在后续确定每个语句的子分数时,根据该语句中每个候选词对应的分数,确定由对应候选词构成的语句的子分数,并按照子分数由大到小的顺序选择子分数较大的设定数量的语句作为准备确定总分数的语句。
S411:根据第一个拼音音节子序列与第二拼音音节子序列组成的每个语句中,每个候选词的分数,确定每个语句的总分数,根据该总分数,选择总分数最大语句作为生成的语句。
本申请中对用户输入的拼音流进行切分,切分为包括至少两个拼音音节子序列的拼音音节序列,其中每个拼音音节子序列中包括至少一个拼音音节。将拼音音节序列中的各拼音音节子序列与数据库中字典保存的各词条的拼音进行匹配,将匹配成功的拼音对应的每个词条作为该拼音音节子序列的每个候选词。将每个拼音音节子序列对应的每个候选词组成对应的语句。根据每个语句确定每个语句中的每个候选词对应的分数时,还可以包括:针对每个语句的每个候选词,根据该候选词与该候选词之后的候选词组成的词组,及数据库保存的词典中每个词组对应的权重,确定该候选词对应的分数。当确定了每个语句中每个候选词对应的分数后,根据每个语句中每个候选词对应的分数,确定每个语句的总分数,将总分数最大的语句作为生成的语句。
上述实施过程中,将每个候选词与该候选词之后的候选词进行组合,构成词组,从而确定候选词对应的分数,其具体过程包括:判断所述候选词是否为该语句的最后一个候选词,当该候选词为该语句的最后一个候选词时,在一元词典中查找与所述候选词匹配的词条对应的权重,根据所述权重以及保存的第二权重系数,确定所述候选词对应的分数,当确定该候选词非该语句的最后一个候选词时,判断所述候选词与该候选词之后的候选词组成的词组是否在二元词典中存在,当判断存在时,根据二元词典中与所述词组匹配的词组对应的权重,以及保存的第一权重系数确定所述候选词对应的权重,当判断不存在时,在一元词典中查找与所述候选词匹配的词条对应的权重,根据所述权重以及保存的第二权重系数,确定所述候选词对应的分数。
同样,确定每个语句的总分数之前该方法进一步包括:根据每个语句中已确定分数的候选词,及该已确定分数的候选词对应的分数,确定每个语句的子分数;根据所述每个语句的子分数,按照子分数由大到小的顺序选择设定数量的语句作为准备确定总分数的语句。
上述在确定每个语句的每个候选词对应的分数的过程中,根据每个候选词与该候选词之后的候选词组成的词组,以及数据库的词典中每个词组对应的权重的过程,与根据每个候选词与该候选词之前的候选词组成的词组,以及数据库的词典中每个词组对应的权重过程类似,相信本领域技术人员根据本申请实施例的描述,可以确定具体的分数确定过程,在这里就不一一赘述。
图5为本申请实施例提供的一种语句生成装置,该装置包括以下结构:
匹配模块51,用于将用户输入的拼音流切分后获取的拼音音节序列中的各拼音音节子序列,与词典中保存的各词条的拼音进行匹配,将匹配成功的拼音对应的每个词条作为该拼音音节子序列的每个候选词;
分数确定模块52,用于将每个拼音音节子序列的每个候选词组成对应的语句,针对每个语句的每个候选词,根据该候选词与该候选词之前的候选词组成的词组,及所述词典中每个词组对应的权重,确定该候选词对应的分数;
语句生成模块53,用于根据所述每个语句中每个候选词的分数,确定所述每个语句的总分数,并根据确定的总分数,将总分数最大的语句作为生成的语句。
所述装置还包括:
存储模块54,用于保存一元词典及二元词典,其中所述一元词典中保存词条,每个词条对应的拼音,以及每个词条对应的权重,所述二元词典中保存词组,以及每个词组的权重。
所述分数确定模块52包括:
判断单元521,用于判断所述候选词是否为所述语句的第一个候选词;
第一分数确定单元522,用于确定所述候选词为所述语句的第一个候选词时,在一元词典中查找与所述候选词匹配的词条对应的权重,根据所述权重及保存的第二权重系数,确定所述候选词对应的分数;
第二分数确定单元523,用于确定所述候选词非所述语句中第一个候选词时,判断所述候选词与所述候选词之前的候选词组成的词组是否在二元词典中存在,当判断存在时,根据二元词典中与所述词组匹配的词组对应的权重,及保存的第一权重系数确定所述候选词对应的分数,当判断不存在时,在一元词典中查找与所述候选词匹配的词条对应的权重,根据所述权重及保存的第二权重系数,确定所述候选词对应的分数。
所述语句生成模块53还用于,
根据每个语句中已确定分数的候选词,及该已确定分数的候选词对应的分数,确定每个语句对应的子分数,按照子分数由大到小的顺序选择选择设定数量的语句作为准备确定总分数的语句。
所述语句生成模块53在确定每个语句的总分数时具体用于,
根据所述每个语句中每个候选词的分数,将所述每个候选词的分数进行乘积或累加运算,将每个候选词的分数进行乘积或累加运算得到的分数,作为该语句的总分数。
图6为本申请实施例提供的一种语句生成的装置结构示意图,该装置包括:
匹配模块61,用于将用户输入的拼音流切分后获取的拼音音节序列中的各拼音音节子序列,与词典中保存的各词条的拼音进行匹配,将匹配成功的拼音对应的每个词条作为该拼音音节子序列的每个候选词;
分数确定模块62,用于将每个拼音音节子序列的每个候选词组成对应的语句,针对每个语句的每个候选词,根据该候选词与该候选词之后的候选词组成的词组,及所述词典中每个词组对应的权重,确定该候选词对应的分数;
语句生成模块63,用于根据所述每个语句中每个候选词的分数,确定所述每个语句的总分数,并根据确定的总分数,将总分数最大的语句作为生成的语句。
所述分数确定模块62包括:
判断单元621,用于判断所述候选词是否为所述语句的最后一个候选词;
第一分数确定单元622,用于确定所述候选词为最后一个候选词时,在所述词典的一元词典中查找与所述候选词匹配的词条对应的权重,根据所述权重及保存的第二权重系数,确定所述候选词对应的分数;
第二分数确定单元623,用于确定所述候选词非最后一个候选词时,判断所述候选词与所述候选词之后的候选词组成的词组是否在所述词典的二元词典中存在,当判断存在时,根据二元词典中与所述词组匹配的词组对应的权重,及保存的第一权重系数确定所述候选词对应的分数,当判断不存在时,在一元词典中查找与所述候选词匹配的词条对应的权重,根据所述权重及保存的第二权重系数,确定所述候选词对应的分数。
所述装置中还包括存储模块,与图5所示的装置中的存储模块的功能相同,在这里就不一一赘述。
本申请实施例提供了一种语句生成方法及装置,该方法包括:将拼音流切分后的拼音音节序列中的各拼音音节,与词典中保存的各词条的拼音进行匹配,将匹配成功的拼音对应的每个词条作为对应拼音音节的每个候选词,将每个候选词组成对应的语句,针对每个语句的每个候选词与该候选词之前的候选词组成的词组,及词典中每个词组对应的权重,确定该候选词对应的分数,根据所述每个语句中每个候选词的分数,确定所述每个语句的总分数,并根据确定的总分数,将总分数最大的语句作为生成的语句。由于只有经常出现的词组对应的权重才会比较高,即经常出现的词组一定是用户经常使用,或满足语言规则的词组,因此采用该方法可以使生成的语句更加的准确。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (14)

1.一种语句生成方法,其特征在于,包括:
将用户输入的拼音流切分后获取的拼音音节序列中的各拼音音节子序列,与词典中保存的各词条的拼音进行匹配,将匹配成功的拼音对应的每个词条作为该拼音音节子序列的每个候选词;
将每个拼音音节子序列的每个候选词组成对应的语句,针对每个语句的每个候选词,根据该候选词与该候选词之前的候选词组成的词组,及所述词典中每个词组对应的权重,确定该候选词对应的分数;
根据所述每个语句中每个候选词的分数,确定所述每个语句的总分数,并根据确定的总分数,将总分数最大的语句作为生成的语句。
2.如权利要求1所述的方法,其特征在于,所述词典包括一元词典和二元词典,其中所述一元词典中保存多个词条,每个词条对应的拼音,以及每个词条对应的权重,所述二元词典中保存词组,以及每个词组的权重。
3.如权利要求2所述的方法,其特征在于,确定该候选词对应的分数包括:
判断所述候选词是否为所述语句的第一个候选词;
当所述候选词为第一个候选词时,在一元词典中查找与所述候选词匹配的词条对应的权重,根据所述权重及保存的第二权重系数,确定所述候选词对应的分数;
否则,判断所述候选词与所述候选词之前的候选词组成的词组是否在二元词典中存在,当判断存在时,根据二元词典中与所述词组匹配的词组对应的权重,及保存的第一权重系数确定所述候选词对应的分数,当判断不存在时,在一元词典中查找与所述候选词匹配的词条对应的权重,根据所述权重及保存的第二权重系数,确定所述候选词对应的分数。
4.如权利要求3所述的方法,其特征在于,确定每个语句的总分数之前所述方法进一步包括:
根据每个语句中已确定分数的候选词,及该已确定分数的候选词对应的分数,确定每个语句的子分数;
根据所述每个语句的子分数,按照子分数由大到小的顺序选择设定数量的语句作为准备确定总分数的语句。
5.如权利要求1所述的方法,其特征在于,确定所述每个语句的总分数包括:
根据所述每个语句中每个候选词的分数,将所述每个候选词的分数进行乘积或累加运算,将每个候选词的分数进行乘积或累加运算得到的分数,作为该语句的总分数。
6.一种语句生成装置,其特征在于,包括:
匹配模块,用于将用户输入的拼音流切分后获取的拼音音节序列中的各拼音音节子序列,与词典中保存的各词条的拼音进行匹配,将匹配成功的拼音对应的每个词条作为该拼音音节子序列的每个候选词;
分数确定模块,用于将每个拼音音节子序列的每个候选词组成对应的语句,针对每个语句的每个候选词,根据该候选词与该候选词之前的候选词组成的词组,及所述词典中每个词组对应的权重,确定该候选词对应的分数;
语句生成模块,用于根据所述每个语句中每个候选词的分数,确定所述每个语句的总分数,并根据确定的总分数,将总分数最大的语句作为生成的语句。
7.如权利要求6所述的装置,其特征在于,所述装置还包括:
存储模块,用于保存一元词典及二元词典,其中所述一元词典中保存词条,每个词条对应的拼音,以及每个词条对应的权重,所述二元词典中保存词组,以及每个词组的权重。
8.如权利要求7所述的装置,其特征在于,所述分数确定模块包括:
判断单元,用于判断所述候选词是否为所述语句的第一个候选词;
第一分数确定单元,用于确定所述候选词为所述语句的第一个候选词时,在一元词典中查找与所述候选词匹配的词条对应的权重,根据所述权重及保存的第二权重系数,确定所述候选词对应的分数;
第二分数确定单元,用于确定所述候选词非所述语句中第一个候选词时,判断所述候选词与所述候选词之前的候选词组成的词组是否在二元词典中存在,当判断存在时,根据二元词典中与所述词组匹配的词组对应的权重,及保存的第一权重系数确定所述候选词对应的分数,当判断不存在时,在一元词典中查找与所述候选词匹配的词条对应的权重,根据所述权重及保存的第二权重系数,确定所述候选词对应的分数。
9.如权利要求6所述的装置,其特征在于,所述语句生成模块还用于,
根据每个语句中已确定分数的候选词,及该已确定分数的候选词对应的分数,确定每个语句对应的子分数,按照子分数由大到小的顺序选择选择设定数量的语句作为准备确定总分数的语句。
10.如权利要求6所述的装置,其特征在于,所述语句生成模块在确定每个语句的总分数时具体用于,
根据所述每个语句中每个候选词的分数,将所述每个候选词的分数进行乘积或累加运算,将每个候选词的分数进行乘积或累加运算得到的分数,作为该语句的总分数。
11.一种语句生成方法,其特征在于,所述方法包括:
将用户输入的拼音流切分后获取的拼音音节序列中的各拼音音节子序列,与词典中保存的各词条的拼音进行匹配,将匹配成功的拼音对应的每个词条作为该拼音音节子序列的每个候选词;
将每个拼音音节子序列的每个候选词组成对应的语句,针对每个语句的每个候选词,根据该候选词与该候选词之后的候选词组成的词组,及所述词典中每个词组对应的权重,确定该候选词对应的分数;
根据所述每个语句中每个候选词的分数,确定所述每个语句的总分数,并根据确定的总分数,将总分数最大的语句作为生成的语句。
12.如权利要求11所述的方法,其特征在于,确定该候选词对应的分数包括:
判断所述候选词是否为所述语句的最后一个候选词;
当所述候选词为最后一个候选词时,在所述词典的一元词典中查找与所述候选词匹配的词条对应的权重,根据所述权重及保存的第二权重系数,确定所述候选词对应的分数;
否则,判断所述候选词与所述候选词之后的候选词组成的词组是否在所述词典的二元词典中存在,当判断存在时,根据二元词典中与所述词组匹配的词组对应的权重,及保存的第一权重系数确定所述候选词对应的分数,当判断不存在时,在一元词典中查找与所述候选词匹配的词条对应的权重,根据所述权重及保存的第二权重系数,确定所述候选词对应的分数。
13.一种语句生成装置,其特征在于,所述装置包括:
匹配模块,用于将用户输入的拼音流切分后获取的拼音音节序列中的各拼音音节子序列,与词典中保存的各词条的拼音进行匹配,将匹配成功的拼音对应的每个词条作为该拼音音节子序列的每个候选词;
分数确定模块,用于将每个拼音音节子序列的每个候选词组成对应的语句,针对每个语句的每个候选词,根据该候选词与该候选词之后的候选词组成的词组,及所述词典中每个词组对应的权重,确定该候选词对应的分数;
语句生成模块,用于根据所述每个语句中每个候选词的分数,确定所述每个语句的总分数,并根据确定的总分数,将总分数最大的语句作为生成的语句。
14.如权利要求13所述的装置,其特征在于,所述分数确定模块包括:
判断单元,用于判断所述候选词是否为所述语句的最后一个候选词;
第一分数确定单元,用于确定所述候选词为最后一个候选词时,在所述词典的一元词典中查找与所述候选词匹配的词条对应的权重,根据所述权重及保存的第二权重系数,确定所述候选词对应的分数;
第二分数确定单元,用于确定所述候选词非最后一个候选词时,判断所述候选词与所述候选词之后的候选词组成的词组是否在所述词典的二元词典中存在,当判断存在时,根据二元词典中与所述词组匹配的词组对应的权重,及保存的第一权重系数确定所述候选词对应的分数,当判断不存在时,在一元词典中查找与所述候选词匹配的词条对应的权重,根据所述权重及保存的第二权重系数,确定所述候选词对应的分数。
CN201010120044.XA 2010-03-04 2010-03-04 一种语句生成方法及装置 Expired - Fee Related CN102193639B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201010120044.XA CN102193639B (zh) 2010-03-04 2010-03-04 一种语句生成方法及装置
HK12100154.8A HK1159811A1 (zh) 2010-03-04 2012-01-06 種語句生成方法及裝置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201010120044.XA CN102193639B (zh) 2010-03-04 2010-03-04 一种语句生成方法及装置

Publications (2)

Publication Number Publication Date
CN102193639A true CN102193639A (zh) 2011-09-21
CN102193639B CN102193639B (zh) 2014-03-12

Family

ID=44601816

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201010120044.XA Expired - Fee Related CN102193639B (zh) 2010-03-04 2010-03-04 一种语句生成方法及装置

Country Status (2)

Country Link
CN (1) CN102193639B (zh)
HK (1) HK1159811A1 (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103049548A (zh) * 2012-12-27 2013-04-17 安徽科大讯飞信息科技股份有限公司 电子渠道应用上的faq识别系统及方法
WO2013127060A1 (en) * 2012-02-28 2013-09-06 Google Inc. Techniques for transliterating input text from a first character set to a second character set
CN105068996A (zh) * 2015-09-21 2015-11-18 哈尔滨工业大学 一种中文分词增量学习方法
CN106708893A (zh) * 2015-11-17 2017-05-24 华为技术有限公司 搜索查询词纠错方法和装置
CN106774975A (zh) * 2016-11-30 2017-05-31 百度在线网络技术(北京)有限公司 输入方法和装置
CN110245331A (zh) * 2018-03-09 2019-09-17 中兴通讯股份有限公司 一种语句转换方法、装置、服务器及计算机存储介质
CN111967248A (zh) * 2020-07-09 2020-11-20 深圳价值在线信息科技股份有限公司 拼音识别方法、装置、终端设备及计算机可读存储介质

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08249324A (ja) * 1995-03-13 1996-09-27 Toshiba Corp 辞書装置及びこれを用いた文章入力装置
CN1206871A (zh) * 1997-07-25 1999-02-03 上海欧姆龙计算机有限公司 汉字输入系统中的拼音字词关系表自动登录方法及装置
CN1322984A (zh) * 2000-05-10 2001-11-21 微软公司 一种汉字输入方法及其装置
CN1556458A (zh) * 2004-01-05 2004-12-22 郑 方 一种中文整句输入法
CN1556452A (zh) * 2003-12-31 2004-12-22 哈尔滨工业大学 数字键盘智能拼音汉字输入方法
CN1685303A (zh) * 2002-10-03 2005-10-19 诺基亚有限公司 在电子装置的用户界面中输入单词的方法及装置
CN101013443A (zh) * 2007-02-13 2007-08-08 北京搜狗科技发展有限公司 一种智能组词输入的方法和一种输入法系统及其更新方法
CN101055588A (zh) * 2007-05-25 2007-10-17 北京搜狗科技发展有限公司 获取限制词信息的方法、优化输出的方法和输入法系统
JP4050745B2 (ja) * 2002-06-27 2008-02-20 博 石倉 文章入力システム
CN101135937A (zh) * 2007-08-23 2008-03-05 广东国笔科技有限公司 一种整句输入法
CN101290632A (zh) * 2008-05-30 2008-10-22 北京搜狗科技发展有限公司 一种用户词参与智能组词输入的方法及一种输入法系统
GB2443652B (en) * 2006-11-08 2009-06-17 Samsung Electronics Co Ltd Mobile communications
CN101470532A (zh) * 2007-12-29 2009-07-01 王有卫 一种以词、词组或短语连成句子的拼音简化键盘输入法
US20090198691A1 (en) * 2008-02-05 2009-08-06 Nokia Corporation Device and method for providing fast phrase input

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08249324A (ja) * 1995-03-13 1996-09-27 Toshiba Corp 辞書装置及びこれを用いた文章入力装置
CN1206871A (zh) * 1997-07-25 1999-02-03 上海欧姆龙计算机有限公司 汉字输入系统中的拼音字词关系表自动登录方法及装置
CN1322984A (zh) * 2000-05-10 2001-11-21 微软公司 一种汉字输入方法及其装置
JP4050745B2 (ja) * 2002-06-27 2008-02-20 博 石倉 文章入力システム
CN1685303A (zh) * 2002-10-03 2005-10-19 诺基亚有限公司 在电子装置的用户界面中输入单词的方法及装置
CN1556452A (zh) * 2003-12-31 2004-12-22 哈尔滨工业大学 数字键盘智能拼音汉字输入方法
CN1556458A (zh) * 2004-01-05 2004-12-22 郑 方 一种中文整句输入法
GB2443652B (en) * 2006-11-08 2009-06-17 Samsung Electronics Co Ltd Mobile communications
CN101013443A (zh) * 2007-02-13 2007-08-08 北京搜狗科技发展有限公司 一种智能组词输入的方法和一种输入法系统及其更新方法
CN101055588A (zh) * 2007-05-25 2007-10-17 北京搜狗科技发展有限公司 获取限制词信息的方法、优化输出的方法和输入法系统
CN101135937A (zh) * 2007-08-23 2008-03-05 广东国笔科技有限公司 一种整句输入法
CN101470532A (zh) * 2007-12-29 2009-07-01 王有卫 一种以词、词组或短语连成句子的拼音简化键盘输入法
US20090198691A1 (en) * 2008-02-05 2009-08-06 Nokia Corporation Device and method for providing fast phrase input
CN101290632A (zh) * 2008-05-30 2008-10-22 北京搜狗科技发展有限公司 一种用户词参与智能组词输入的方法及一种输入法系统

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013127060A1 (en) * 2012-02-28 2013-09-06 Google Inc. Techniques for transliterating input text from a first character set to a second character set
CN104272223A (zh) * 2012-02-28 2015-01-07 谷歌公司 用于将输入文本从第一字符集音译到第二字符集的技术
CN104272223B (zh) * 2012-02-28 2018-05-04 谷歌有限责任公司 用于将输入文本从第一字符集音译到第二字符集的技术
US9613029B2 (en) 2012-02-28 2017-04-04 Google Inc. Techniques for transliterating input text from a first character set to a second character set
CN103049548A (zh) * 2012-12-27 2013-04-17 安徽科大讯飞信息科技股份有限公司 电子渠道应用上的faq识别系统及方法
CN103049548B (zh) * 2012-12-27 2016-08-10 科大讯飞股份有限公司 电子渠道应用上的faq识别系统及方法
CN105068996B (zh) * 2015-09-21 2017-11-17 哈尔滨工业大学 一种中文分词增量学习方法
CN105068996A (zh) * 2015-09-21 2015-11-18 哈尔滨工业大学 一种中文分词增量学习方法
WO2017084506A1 (zh) * 2015-11-17 2017-05-26 华为技术有限公司 搜索查询词纠错方法和装置
CN106708893A (zh) * 2015-11-17 2017-05-24 华为技术有限公司 搜索查询词纠错方法和装置
CN106708893B (zh) * 2015-11-17 2018-09-28 华为技术有限公司 搜索查询词纠错方法和装置
CN106774975A (zh) * 2016-11-30 2017-05-31 百度在线网络技术(北京)有限公司 输入方法和装置
CN106774975B (zh) * 2016-11-30 2020-03-31 百度在线网络技术(北京)有限公司 输入方法和装置
CN110245331A (zh) * 2018-03-09 2019-09-17 中兴通讯股份有限公司 一种语句转换方法、装置、服务器及计算机存储介质
CN111967248A (zh) * 2020-07-09 2020-11-20 深圳价值在线信息科技股份有限公司 拼音识别方法、装置、终端设备及计算机可读存储介质

Also Published As

Publication number Publication date
CN102193639B (zh) 2014-03-12
HK1159811A1 (zh) 2012-08-03

Similar Documents

Publication Publication Date Title
CN102193639B (zh) 一种语句生成方法及装置
US11409813B2 (en) Method and apparatus for mining general tag, server, and medium
CN104142915B (zh) 一种添加标点的方法和系统
CN101183281B (zh) 一种输入法中候选词的相关词输入的方法及系统
CN102902362B (zh) 文字输入方法及系统
CN102081602B (zh) 确定未登录词的类别的方法和设备
CN102945228A (zh) 一种基于文本分割技术的多文档文摘方法
CN105868176A (zh) 基于文字的视频合成方法及其系统
CN103885608A (zh) 一种输入方法及系统
CN110162753B (zh) 用于生成文本模板的方法、装置、设备和计算机可读介质
JP2015523659A (ja) 多言語混合検索方法およびシステム
CN104011712A (zh) 对跨语言查询建议的查询翻译进行评价
CN105956206A (zh) 一种基于关键词树的视频检索方法及系统
CN101271452A (zh) 生成译文和机器翻译的方法及装置
CN103186523B (zh) 电子设备及其自然语言分析方法
CN107885717B (zh) 一种关键词提取方法及装置
CN110147494B (zh) 信息搜索方法、装置,存储介质及电子设备
CN101290616A (zh) 一种统计机器翻译方法和系统
CN101751434A (zh) 一种元搜索引擎的排名方法及元搜索引擎
CN102339294A (zh) 一种对关键词进行预处理的搜索方法和系统
CN109815390B (zh) 多语言信息的检索方法、装置、计算机设备及计算机存储介质
CN103186522A (zh) 电子设备及其自然语言分析方法
CN104572758A (zh) 一种电力领域专业词汇自动抽取方法及系统
CN109902290A (zh) 一种基于文本信息的术语提取方法、系统和设备
CN102567365B (zh) 一种针对于关键词进行标注的输入方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1159811

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: GR

Ref document number: 1159811

Country of ref document: HK

CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20140312

CF01 Termination of patent right due to non-payment of annual fee