CN103870449B

CN103870449B - 在线自动挖掘新词的方法及电子装置

Info

Publication number: CN103870449B
Application number: CN201210525387.3A
Authority: CN
Inventors: 吴先超
Original assignee: Baidu International Technology Shenzhen Co Ltd
Current assignee: Baidu International Technology Shenzhen Co Ltd
Priority date: 2012-12-10
Filing date: 2012-12-10
Publication date: 2018-06-12
Anticipated expiration: 2032-12-10
Also published as: CN103870449A

Abstract

本发明公开了一种在线自动挖掘新词的方法及电子装置，其中，在线自动挖掘新词的方法，包括：获取语料中的多个候选项；通过相似度算法，获得第一候选项集合；根据已建立的第一语言形式和第二语言形式组合的词对齐模型，获取所述第一候选项集合中候选项所对应的第一字符串组合的概率；判断所述第一候选项集合中候选项的加权得分是否达到第二阈值；若达到所述第二阈值，则所述第一候选项集合中候选项即为挖掘到的新词。通过上述方式，本发明能够利用计算机快速、准确地大量挖掘新词，取代了手工收集，满足用户日益增长的输入需求。

Description

在线自动挖掘新词的方法及电子装置

技术领域

本发明涉及信息处理技术领域，特别是涉及一种在线自动挖掘新词的方法及电子装置。

背景技术

在日文输入法中，根据用户输入的假名序列构造出符合用户所期望的汉字序列，以及反过来根据汉字序列来标注其假名读音，都需要大规模的“假名-汉字”词条。

在信息化的时代，网络上每天都有新词不断诞生，例如：组织名称、公司名称、人的姓名、技术名词等命名。手工收集这些新词的假名-汉字词条（例如：来自Blog、Twitter、Facebook、论文、专利等）已经无法及时地满足用户日益增长的数以亿计的输入需求。

发明内容

本发明主要解决的技术问题是提供一种在线自动挖掘新词的方法及电子装置，能够大幅提高收集新词的假名-汉字词条的效率。

为解决上述技术问题，本发明采用的一个技术方案是：提供一种在线自动挖掘新词的方法包括：获取语料中的具有预设字符串形式的候选项集合；根据已建立的具有预设语言形式组合的词对齐模型，获取所述候选项集合中候选项所对应的部分字符的概率；判断所述候选项集合中候选项所对应的部分字符的概率是否达到第二阈值，若达到所述第二阈值，则所述候选项集合中候选项即为挖掘到的新词。

其中，获取语料中的候选项集合的步骤包括：从所述语料中收集具有预设形式的第一字符串组合，并获取其中的候选项，所述候选项是预设形式的第一字符串组合中的第一字符串，所述第一字符串组合包括所述第一字符串和第二字符串，其中，所述第一字符串在所述第二字符串的前面且紧邻所述第二字符串；通过相似度算法，获得候选项集合，所述候选项集合是通过所述相似度算法得到的相似度得分达到第一阈值的候选项的集合；

所述根据已建立的具有预设语言形式组合的词对齐模型，获取所述候选项集合中候选项所对应的部分字符的概率的步骤包括：根据已建立的第一语言形式和第二语言形式组合的词对齐模型，获取所述候选项集合中候选项所对应的第一字符串组合的概率，所述第一语言形式以第一字符表示，所述第二语言形式以第二字符表示；

所述判断所述候选项集合中候选项所对应的部分字符的概率是否达到第二阈值的步骤包括：判断所述候选项集合中候选项的加权得分是否达到第二阈值，其中，所述候选项集合中候选项的加权得分是根据所述候选项集合中候选项的相似度得分和所述候选项集合中候选项所对应的第一字符串组合的概率进行加权相加获得的。

其中，所述根据已建立的第一语言形式和第二语言形式组合的词对齐模型，获取所述第一候选项集合中候选项所对应的第一字符串组合的概率的步骤之前，包括：根据已有的第一语言形式和第二语言形式组合的词典，通过最大期望算法建立第一语言形式和第二语言形式组合的词对齐模型。

其中，所述第一语言形式和第二语言形式组合的词对齐模型是从左向右，按照所述第一字符对照一个或多个所述第二字符的方式进行对齐。

其中，所述通过相似度算法，获得第一候选项集合，所述第一候选项集合是通过所述相似度算法得到的相似度得分达到第一阈值的候选项的集合的步骤，包括：通过相似度算法，获得每个所述候选项的相似度得分，其中，所述候选项的相似度得分是：

LH(C)=freq(c)-E[freq(c)]，

所述c为所述候选项，所述freq(c)是所述c出现在所述第二字符串前面的频次，所述E[freq(c)]是所述freq(c)的数学期望；

根据所述每个候选项的相似度得分，确定所述相似度得分达到所述第一阈值的候选项，所述相似度得分达到所述第一阈值的候选项的集合即为所述第一候选项集合。

其中，所述greq(c)的数学期望是：

所述c为所述候选项，所述Tc是包含所述c、且比所述c多一个字符的候选项t的集合，所述freq(t)是所述t出现在所述第二字符串前面的频次。

其中，所述第一字符串和第二字符串分别是汉字和假名。

其中，所述第一字符串和第二字符串分别是一种语言的单词和与所述语言的单词对应的另一种语言的单词。

其中，所述预设形式是表征第一字符串组合的形式，所述第一字符串组合包括第一字符串并后紧跟括号内的第二字符串。

其中，判断所述第一候选项集合中候选项为挖掘到的新词步骤之后，包括：获取用户输入的第二字符串，查询所述词典，获取并顺序显示与所述输入的第二字符串意思对应的第一字符串候选项列表；判断用户输入的第二字符串之后是否输入预定字符，如果是，则顺序显示第二字符串组合列表，所述第二字符串组合为与所述输入的第二字符串意思对应的第一字符串候选项和具有预定格式的第三字符串的组合；获取用户的第一命令，在所述第一命令为确定命令时，获取并显示用户确定的第二字符串组合，其中，使所述第二字符串组合中的第三字符串获得焦点；获取用户的第二命令，在所述第二命令为确定命令时，显示所述用户确定的第二字符串组合，并结束流程，在所述第二命令为变换命令时，查询所述词典，获取并顺序显示与所述第二字符串组合中的第一字符串候选项意思对应的第四字符串列表；获取用户确定的第四字符串，显示所述第二字符串组合中的第一字符串候选项和具有预定格式的所述确定的第四字符串。

其中，所述第一字符串为汉字，所述第二字符串为假名，所述预定字符为左括号。

其中，所述第三字符串包括所述输入的假名和/或与所述汉字候选项意思对应的英文候选项；所述第四字符串包括与其前面的汉字候选项意思对应的假名候选项和/或英文候选项。

其中，所述第四字符串中的假名候选项包括平假名、或片假名、或假名罗马字候选项。

其中，所述查询所述的词典的步骤包括：查询本方法建立的汉字与假名的词典和/或查询本方法建立的日文与英文的词典。

其中，所述预定格式为括号格式。

其中，所述确定命令是键盘的“enter”键所触发的命令，所述变换命令是键盘的空格键所触发的命令，所述第三字符串获得焦点表现为所述第三字符串加下划线。

为解决上述技术问题，本发明采用的另一个技术方案是：提供一种电子装置包括：生成模块、第二获取模块以及第一判断模块；所述生成模块用于获取语料中的具有预设字符串形式的候选项集合；所述第二获取模块用于根据已建立的具有预设语言形式组合的词对齐模型，获取所述候选项集合中候选项所对应的部分字符的概率；所述第一判断模块用于判断所述候选项集合中候选项所对应的部分字符的概率是否达到第二阈值，若达到所述第二阈值，则所述候选项集合中候选项即为挖掘到的新词。

其中，还包括第一获取模块；所述第一获取模块用于获取语料中的多个候选项，所述候选项是预设形式的第一字符串组合中的第一字符串，所述第一字符串组合包括所述第一字符串和第二字符串,其中，所述第一字符串在所述第二字符串的前面且紧邻所述第二字符串；所述生成模块具体用于通过相似度算法，获得第一候选项集合，所述第一候选项集合是通过所述相似度算法得到的相似度得分达到第一阈值的候选项的集合；所述第二获取模块具体用于根据已建立的第一语言形式和第二语言形式组合的词对齐模型，获取所述第一候选项集合中候选项所对应的第一字符串组合的概率，所述第一语言形式以第一字符表示，所述第二语言形式以第二字符表示；所述第一判断模块具体用于判断所述第一候选项集合中候选项的加权得分是否达到第二阈值，在达到所述第二阈值时，将所述第一候选项集合中候选项定为挖掘到的新词，其中，所述第一候选项集合中候选项的加权得分是根据所述第一候选项集合中候选项的相似度得分和所述第一候选项集合中候选项所对应的所对应的第一字符串组合的概率进行加权相加获得的。

其中，所述第二获取模块包括建立单元，所述建立单元用于根据已有的第一语言形式和第二语言形式组合的词典，通过最大期望算法建立第一语言形式和第二语言形式组合的词对齐模型。

其中，所述建立单元具体用于建立从左向右、按照所述第一字符对照一个或多个所述第二字符的方式进行对齐的第一语言形式和第二语言形式组合的词对齐模型。

其中，所述生成模块包括获取单元以及判断单元；所述获取单元用于通过相似度算法，获得每个所述候选项的相似度得分，其中，所述候选项的相似度得分是：

LH(C)=freq(c)-E[freq(c)]，

所述判断单元用于根据所述每个候选项的相似度得分，判断所述相似度得分是否达到所述第一阈值，在所述相似度得分达到第一阈值时，将所述候选项放在所述第一候选项集合。

其中，所述freq(c)的数学期望是：

其中，所述第一获取模块进一步用于从所述语料中收集具有预设形式的第一字符串组合。

其中，所述第一字符串和第二字符串分别是汉字和假名。

其中，所述第一字符串是一种语言的单词，所述第二字符串是与所述语言的单词对应的另一种语言的单词。

其中，所述预设形式是表征第二字符串组合的形式，所述第二字符串组合包括第一字符串和括号内的第二字符串。

其中，所述装置还包括第一显示模块、第二判断模块、第二显示模块、第三显示模块及第四显示模块；所述第一显示模块用于获取用户输入的第二字符串，查询所述词典，获取并顺序显示与所述输入的第二字符串意思对应的第一字符串候选项列表；所述第二判断模块用于判断用户输入的第二字符串之后是否输入预定字符，并将判断结果向第一显示模块发送；所述第一显示模块进一步用于在用户输入的第二字符串之后输入预定字符时，顺序显示第二字符串组合列表，所述第二字符串组合为与所述输入的第二字符串意思对应的第一字符串候选项和具有预定格式的第三字符串的组合；所述第二显示模块用于获取用户的第一命令，在所述第一命令为确定命令时，获取并显示用户确定的第二字符串组合，其中，使所述第二字符串组合中的第三字符串获得焦点；所述第三显示模块用于获取用户的第二命令，在所述第二命令为确定命令时，显示所述用户确定的第二字符串组合；在所述第二命令为变换命令时，查询所述词典，获取并顺序显示与所述第二字符串组合中的第一字符串候选项意思对应的第四字符串列表；所述第四显示模块用于获取用户确定的第四字符串，显示所述第二字符串组合中的第一字符串候选项和具有预定格式的所述确定的第四字符串。

其中，所述查询的词典包括所述装置建立的汉字与假名的词典和/或所述装置建立的日文与英文的词典。

其中，所述预定格式为括号格式。

本发明的有益效果是：区别于现有技术的情况，本发明获取多个语料中具有预设形式的第一字符串组合中的候选项，获得候选项的相似度得分和词对齐模型的概率，然后判断候选项的加权得分是否达到第二阈值，如果达到，表明该候选项即为挖掘的新词，通过这种方式，可以利用计算机快速、准确地大量挖掘新词，取代了手工收集，满足用户日益增长的输入需求。

附图说明

图1是本发明在线自动挖掘新词的方法一实施方式的流程图；

图2是本发明在线自动挖掘新词的方法另一实施方式中通过相似度算法、获得第一候选项集合的流程图；

图3是本发明在线自动挖掘新词的方法再一实施方式中的部分流程图；

图4是本发明在线自动挖掘新词的方法再一实施方式中的第一部分展示界面图；

图5是本发明在线自动挖掘新词的方法再一实施方式中的第二部分展示界面图；

图6是本发明电子装置一实施方式的结构示意图；

图7是本发明电子装置另一实施方式的结构示意图；

图8是本发明电子装置再一实施方式的结构示意图。

具体实施方式

下面结合附图和实施方式对本发明进行详细说明。

首先，对本发明在线自动挖掘新词的方法及装置中的所指的新词进行说明，本发明所挖掘的新词包括：“中文术语-英文解释”，或者“日文汉字串-日文假名读音”的词条。例如：

1）万宝龙(mont blanc)；

2）安奈（あんな）。

为了便于说明，全文的新词仅为“日文汉字串-日文假名读音”的词条，但不应认为本发明挖掘的新词仅限于“日文汉字串-日文假名读音”的词条。

请参阅图1，图1是本发明在线自动挖掘新词的方法一实施方式的流程图。本实施方式包括以下步骤：

步骤S101：获取语料中的多个候选项；

在语料中收集具有预设形式的第一字符串组合，获取具有预设形式的第一字符串组合中的第一字符串并定义为候选项。其中，第一字符串组合包括第一字符串和第二字符串，且第一字符串在第二字符串的前面并紧邻第二字符串。更进一步说明，第一字符串和第二字符串是一种语言的单词和与所述语言的单词对应的另一种语言的单词，并且第一字符串和第二字符串是以预设形式组合。例如，第一字符串为汉字的一个词语，第二字符串为假名的一个词语，第一字符串和第二字符串以预设形式为：汉字（假名）组合，即第一字符串和第二字符串前后紧邻排列，并且第二字符串在括号内，而第一字符串不在括号内。为了便于说明，全文的第一字符串为汉字，第二字符串为假名，且预设形式为：汉字（假名），但不应认为第一字符串仅限于为汉字、第二字符串仅限于为假名，且预设形式不仅限于为：汉字（假名）。

步骤S102：通过相似度算法，获得第一候选项集合；

在上一步骤确定的候选项中，通过相似度算法，获得各候选项的相似度得分，根据候选项的相似度得分进一步挑选出与其对应的第二字符串意义相应的候选项，以获得挑选出的候选项的集合，也就是第一候选项集合。举例说明：按照预设形式：汉字（假名），在语料“姉の名前安奈（あんな）”中，确认四个候选项为：安奈、名前安奈、の名前安奈、姉の名前安奈，通过相似度算法，获得上述四个候选项的相似度得分，假如候选项“安奈”以及“名前安奈”的相似度得分达到设定好的第一阈值，则可认为候选项“安奈”以及“名前安奈”均可能与第二字符串“あんな”意义相应，并挑选出候选项“安奈”以及“名前安奈”，以“安奈”以及“名前安奈”组成第一候选项集合。

步骤S103：根据已建立词对齐模型，获取所述第一候选项集合中候选项所对应的第一字符串组合的概率；

在具体的实施方式中，先根据已有的第一语言形式和第二语言形式组合的词典，通过最大期望（Expectation Maximum-EM）算法建立第一语言形式和第二语言形式组合的词对齐模型。本实施例方式中，第一语言形式为汉字，第二语言形式为假名，根据已有的汉字-假名的词典，通过EM算法建立“汉字-假名”的从左到右室的词对齐模型，上述从左到右词的对齐模型是按照所述一个汉字对照一个或多个假名的方式进行从左到右的词对齐。例如，在已有汉字-假名词典中包含如下词条：

大学だいがく，

学生がくせい，

学がく，

学院がくいん；

通过EM算法，可以得到如下“汉字-假名”的词对齐模型：

大だい，

学がく，

生せい，

院いん。

根据已建立的词对齐模型，获取第一候选项集合中候选项所对应的第一字符串组合的概率。具体地，在已建立的词对齐模型中抽取相应的词对齐模型，以构成第一字符串为候选项的新字符串组合。例如，候选项为“大学院”，则抽取对应词对齐模型“大だい，学がく，院いん”，并组合成新字符串组合“大学院だいがくいん”。在获得新字符串组合后，进而获取候选项所对应的第一字符串组合的词对齐模型下的概率。

步骤S104：判断第一候选项集合中候选项的加权得分是否达到第二阈值；

判断第一候选项集合中候选项的加权得分是否达到第二阈值，若达到所述第二阈值，则进入步骤S105，否则，进入步骤S106。其中，第一候选项集合中候选项的加权得分是根据第一候选项集合中候选项的相似度得分和候选项所对应的第一字符串组合的概率进行加权相加获得的。由于加权相加中的权重和具体的数据集密切相关，本实施方式中，先单独取一个发展集并进行人工标注，通过在该发展集中达到最优形式而最终确定相关权重的取值，其中，上述发展集为用于估计和调整模型中的hyper-parameter的集合。

步骤S105：确定所述第一候选项集合中候选项为挖掘到的新词；

确定所述第一候选项集合中候选项为挖掘到的新词后，将候选项放入词典，并通过EM算法建立相关词对齐模型，使得以后可以利用该词对齐模型过滤新的候选项。

步骤S106：结束流程。

其中，请参阅图2，在另一实施方式中，通过相似度算法，获得第一候选项集合的步骤包括以下子步骤：

子步骤S201：通过相似度算法，获得每个所述候选项的相似度得分；

通过相似度算法，获得每个候选项的相似度得分，其中，候选项的相似度得分是：

LH(C)=freq(c)-E[freq(c)]，

其中，在本实施方式中，E[freq(c)]是：

所述c为所述候选项，所述Tc是包含所述c、且比所述c多一个字符的候选项t的集合，所述freq(c)是所述c出现在所述第二字符串前面的频次，所述E[freq(c)]是所述freq(c)的数学期望。

子步骤S202：确定所述相似度得分达到所述第一阈值的候选项；

判断每个候选项的相似度得分是否达到第一阈值，如果候选项的相似度得分达到第一阈值，则挑选出该候选项。

子步骤S203：将挑选出的候选项集合为第一候选项集合；

举例进一步描述，在语料“名前が安奈（あんな），大学生の安奈（あんな）”中，获得第二字符串“あんな”可能的候选c包含了：安奈、が安奈、名前が安奈、の安奈、大学生の安奈。

对于“c=安奈”的时候，Tc={が安奈、の安奈}，即有：

freq(安奈)=2,freq(が安奈)=1,freq(の安奈)=1，

E[freq(安奈)]＝(1*1/2+1*1/2)=1，

LH(安奈)=2–1=1；

同理，当“c=が安奈”的时候，Tc={名前が安奈}，有：

LH(が安奈)=1–(1*1/1)=0；

当“c=の安奈”的时候，Tc={大学生の安奈}，有：

LH(の安奈)=1–(1*1/1)=0；

请参阅图3至图5，本实施方式中前面的步骤（图3未示）与上面实施方式的步骤S101至步骤S105一致，在此不再赘述。本实施方式在执行步骤S105之后，还包括以下步骤：

步骤S301：获取输入的假名，并显示汉字候选项列表；

获取用户输入的假名，并查询由上面步骤建立的词典，获取与输入的假名意思对应的汉字候选项列表。例如，获取用户输入的假名为“かがく”，查询已建立的假名-汉字词典，得到汉字候选项有：価格、科学、歌学、化学、花岳等，顺序显示上述的汉字候选项。为了便于说明，全文中用户输入的为假名，且获取的为汉字候选项，但不应认为仅限于输入假名，并获取汉字候选项。在其他应用实施方式中，用户输入的可以为任意语言的字符，对应地，获取的可以为与输入意思对应的其他任意语言的字符候选项。例如，用户输入汉字，且对应获取与输入汉字意思对应的假名候选项等。此外，需要说明的是，本实施方式中，通过查询上面步骤建立的假名-汉字词典，获取相应的汉字候选项，但是并不限于通过查询上面步骤建立的假名-汉字词典，获取相应的汉字候选项。在其他实施方式中，还可以查询其他的假名-汉字词典，或者结合上面步骤建立的假名-汉字词典和其他的假名-汉字词典进行查询。另外，本实施方式中，如果根据用户输入的假名，无法查询到相应的汉字候选项，则不进行以下步骤。

步骤S302：判断用户输入的假名之后是否输入左括号；

判断用户在输入的假名之后是否输入左括号，如果是，则进入步骤S303，否则，进入步骤S307，以结束流程。为了便于说明，全文都是通过判断假名后是否有左括号，来判定是否进行下面步骤，但并不应认为必须以左括号为判断条件。在其他具体实施方式中，该判断条件可以根据实际的应用进行相应的设置。例如，可以通过判断输入假名后是否输入空格，来决定是否进行下面步骤。当然，也可以不必设置判断条件，直接进行下面步骤。

步骤S303：顺序显示第二字符串组合列表；

本实施方式中，在用户输入左括号后，顺序显示第二字符串组合列表，所述第二字符串组合为与所述输入的假名意思对应的汉字候选项和具有预定格式的第三字符串的组合。举例说明，用户输入的假名为“かがく”，查询已建立的假名-汉字词典，得到汉字候选项有：価格、科学、歌学、化学、花岳等，顺序显示上述的汉字候选项，且在每个上述汉字候选项后，显示具有括号格式的与该汉字候选项意思相应的假名。如：1価格（かがく）、2科学（かがく）、3歌学（かがく）、4化学（かがく）、5花岳（かがく）等。当然，汉字候选项之后的第三字符串并不仅限于为假名，在其他实施方式中，第三字符串还可为与汉字候选项意思对应的英文候选，或者为假名及与汉字候选项意思对应的英文候选。而第三字符串的选择，可以通过但不仅限于通过提供相应选择项以供用户自行设置。另外，为了便于说明，全文的第三字符串的预定格式为括号格式，但不应认为第三字符串的预定格式仅限于为括号格式。在其他实施方式中，第三字符串可以通过具有其他预定格式或者没有格式，如：“1価格—かがく”，或“1価格かがく”等。

步骤S304：获取第一命令，在第一命令为确定命令时，获取并显示用户确定的第二字符串组合；

获取用户的第一命令，在第一命令为确定命令时，获取并显示用户确定的第二字符串组合，其中，使所述第二字符串组合中的第三字符串获得焦点。在本实施方式中，所述确定命令是键盘的“enter”键所触发的命令，第三字符串获得焦点表现为第三字符串加下划线。例如，在步骤S303显示的第二字符串组合列表中，用户选择“1価格（かがく）”，并按下“enter”键，则显示：“価格（かがく）”。当然，所述确定命令不仅限于是键盘的“enter”键所触发的命令，在其他应用实施方式中，可以根据用户的习惯进行设置确定命令，如设置键盘的“Alt”键触发确定命令，或者鼠标右击触发确定命令等。另外，第三字符串获得焦点的方式也不仅限于表现为第三字符串加下划线，在其他具体应用中，可以设置为任意具有标识性的方式。例如：设置第三字符串高亮以获得焦点等。

步骤S305：获取第二命令，在第二命令为变换命令时，获取并顺序显示第四字符串列表；

获取用户的第二命令，在所述第二命令为确定命令时，显示所述用户确定的第二字符串组合，并结束流程。在所述第二命令为变换命令时，查询本发明建立的假名-汉字词典和假名-英文词典，获取并顺序显示与所述第二字符串组合中的汉字候选项意思对应的第四字符串列表，其中，第四字符串为平假名候选项、或片假名候选项、或假名罗马字候选项、或英文候选项、或假名候选项及英文候选项。

进一步举例说明，第三字符串获得焦点，如“価格（かがく）”，此时，如果用户按下“enter”键（即触发确定命令），则显示“価格（かがく）”，且结束流程。如果用户按下空格键（即触发变换命令），则查询相关词典，获取并显示与汉字候选项“価格”意思对应的第四字符串，该第四字符串为“かがく、カガク、kagaku、science、かがく，science”等（如图5）。当然，第四字符串并非必须为平假名候选项、或片假名候选项、或假名罗马字候选项、或英文候选项、或假名候选项及英文候选项。在其他具体实施方式中，第四字符串可为上述候选项中的一个或者几个，也可以为根据相关词典获取的其他与汉字候选项意思对应的候选项。

另外，本实施方式中，通过查询本发明建立的假名-汉字词典和假名-英文词典，获取相应的汉字候选项，但是并不限于通过查询上面步骤建立的假名-汉字词典，获取相应的第四字符串。在其他实施方式中，还可以查询其他的假名-汉字词典和假名-英文词典，或者结合上面步骤建立的相关词典和其他的相关词典进行查询。

步骤S306：显示汉字候选项和预定格式的第四字符串；

获取用户确定的第四字符串，显示所述第二字符串组合中的汉字候选项和具有预定格式的所述确定的第四字符串，本实施方式中，预定格式为括号格式。例如：用户确定的第四字符串为“かがく，science”，即显示“価格（かがく，science）”。

步骤S307：结束流程。

区别于现有技术，本发明获取多个语料中具有预设形式的第一字符串组合中的候选项，获得候选项的相似度得分和词对齐模型的概率，然后判断候选项的加权得分是否达到第二阈值，如果达到，表明该候选项即为挖掘的新词，通过这种方式，可以利用计算机快速、准确地大量挖掘新词，取代了手工收集，满足用户日益增长的输入需求。

请参阅图6，图6是本发明电子装置一实施方式的结构示意图。在本实施方式中，电子装置400包括：第一获取模块410、生成模块420、第二获取模块430以及第一判断模块440。

第一获取模块410用于获取语料中的多个候选项，并将候选项发送给生成模块420，所述候选项是预设形式的第一字符串组合中的第一字符串，字符组合包括第一字符串和第二字符串,其中，第一字符串在第二字符串的前面且紧邻所述第二字符串。

进一步地，第一获取模块410用于在语料中收集具有预设形式的第一字符串组合，获取具有预设形式的第一字符串组合中的第一字符串并定义为候选项。其中，第一字符串和第二字符串是一种语言的单词和与所述语言的单词对应的另一种语言的单词，并且第一字符串和第二字符串是以预设形式组合。例如，第一字符串为汉字的一个词语，第二字符串为假名的一个词语，第一字符串和第二字符串以预设形式为：汉字（假名）组合。

生成模块420用于通过相似度算法，获得第一候选项集合，并将第一候选项集合向第二获取模块430发送，以及将候选项相似度得分向第一判断模块440发送，所述第一候选项集合是通过所述相似度算法得到的相似度得分达到第一阈值的候选项的集合。

具体地，接收第一获取模块410发送的候选项后，生成模块420通过相似度算法，获得各候选项的相似度得分，并根据候选项的相似度得分进一步挑选出与其对应的第二字符串意义相应的候选项，以获得挑选出的候选项的集合，也就是第一候选项集合。举例说明：按照预设形式：汉字（假名），在语料“姉の名前安奈（あんな）”中，生成模块420获取四个候选项为：安奈、名前安奈、の名前安奈、姉の名前安奈，通过相似度算法，获得上述四个候选项的相似度得分。假如候选项“安奈”以及“名前安奈”的相似度得分达到设定好的第一阈值，则可认为候选项“安奈”以及“名前安奈”均可能与第二字符串“あんな”意义相应，生成模块420挑选出候选项“安奈”以及“名前安奈”，以候选项“安奈”以及“名前安奈”组成第一候选项集合。

第二获取模块430用于根据已建立的第一语言形式和第二语言形式组合的词对齐模型，获取第一候选项集合中候选项所对应的第一字符串组合的概率，并将概率向第一判断模块440发送。其中，第一语言形式以第一字符表示，第二语言形式以第二字符表示，例如，第一语言形式为汉字，第二语言形式为假名，已建立的第一语言形式和第二语言形式组合的词对齐模型为汉字-假名的词对齐模型。

具体地，第二获取模块430接收到生成模块420发送的第一候选项集合后，在已建立的词对齐模型中抽取相应的词对齐模型，以构成第一字符串为第一候选项集合中候选项的新字符串组合。例如，第二获取模块430接收到第一候选项集合中的一个候选项为“大学院”，则抽取对应词对齐模型“大だい，学がく，院いん”，并组合成新字符串组合“大学院だいがくいん”。在获得新字符串组合后，第二获取模块430进而获取候选项所对应的第一字符串组合的词对齐模型下的概率。

第一判断模块440用于判断第一候选项集合中候选项的加权得分是否达到第二阈值，在达到所第二阈值时，将所述第一候选项集合中候选项确定为挖掘到的新词。其中，第一候选项集合中候选项的加权得分是根据第一候选项集合中候选项的相似度得分和候选项所对应的第一字符串组合的概率进行加权相加获得的。

第一判断模块440进一步用于在确定第一候选项集合中候选项为挖掘到的新词后，将候选项放入词典，并通过EM算法建立相关词对齐模型，使得以后可以利用该词对齐模型过滤新的候选项。

请参阅图7，图7为本发明在线自动挖掘的装置另一实施方式的结构示意图。在本实施方式中，电子装置500包括：第一获取模块510、生成模块520、第二获取模块530以及第一判断模块540。本实施方式较于上一实施方式为更优化的实施方式，其中，第一获取模块510、生成模块520、第二获取模块530以及第一判断模块540的相关描述，请对应参阅上一实施方式的第一获取模块410、生成模块420、第二获取模块430以及第一判断模块440，在此不再一一赘述。

更为优化地，生成模块520包括获取单元521以及判断单元522；

获取单元521用于通过相似度算法，获得每个候选项的相似度得分，并将候选项的相似度得分向判断单元522发送，其中，所述候选项的相似度得分是：

LH(C)=freq(c)-E[freq(c)]，

其中，在本实施方式中，E[freq(c)]是：

判断单元522用于根据所述每个候选项的相似度得分，判断所述相似度得分是否达到所述第一阈值，在相似度得分达到第一阈值时，将所述候选项放在第一候选项集合，并将第一候选项集合向第二获取模块530发送，同时将第一候选项集合中候选项的相似度得分向第一判断模块540发送。

获取单元521获得所有候选项的相似度得分LH，并向判断单元522发送。

更为优化地，在本实施方式中，第二获取模块530包括建立单元531，建立单元531用于根据已有的第一语言形式和第二语言形式组合的词典，通过EM算法建立第一语言形式和第二语言形式组合的词对齐模型。

举例进一步说明，本实施例方式中，第一语言形式为汉字，第二语言形式为假名，建立单元531根据已有的汉字-假名的词典，通过EM算法建立“汉字-假名”的从左到右室的词对齐模型，上述从左到右词的对齐模型是按照所述一个汉字对照一个或多个假名的方式进行从左到右的词对齐。

请参阅图8，图8是本发明电子装置再一实施方式的结构示意图。本实施方式中，电子装置600包括：第一获取模块610、生成模块620、第二获取模块630、第一判断模块640、第一显示模块650、第二判断模块660、第二显示模块670、第三显示模块680及第四显示模块690。其中，第一获取模块610、生成模块620、第二获取模块630、第一判断模块640与上一实施方式中的第一获取模块410、生成模块420、第二获取模块430、第一判断模块440一致，在此不再赘述。

第一显示模块650用于获取用户输入的假名，查询电子装置600建立的汉字与假名的词典，获取并顺序显示与所述输入的假名意思对应的汉字候选项列表。例如，第一显示模块650获取用户输入的假名为“かがく”，查询已建立的假名-汉字词典，得到汉字候选项有：価格、科学、歌学、化学、花岳等，顺序显示上述的汉字候选项。需要说明的是，第一显示模块650并不限于通过查询电子装置600建立的假名-汉字词典，获取相应的汉字候选项。在其他实施方式中，第一显示模块650还可以查询其他的假名-汉字词典，或者结合电子装置600建立的假名-汉字词典和其他的假名-汉字词典进行查询。

第二判断模块660用于判断用户输入的假名之后是否输入左括号，并将判断结果向第一显示模块650发送。

第一显示模块650进一步用于第二判断模块660发送的判断结果，接收在用户输入的假名之后输入左括号时，顺序显示第二字符串组合列表，所述第二字符串组合为与所述输入的假名意思对应的汉字候选项和具有预定格式的第三字符串的组合。举例说明，用户输入的假名为“かがく”，第一显示模块650查询已建立的假名-汉字词典，得到汉字候选项有：価格、科学、歌学、化学、花岳等，并顺序显示上述的汉字候选项，且在每个上述汉字候选项后，显示具有括号格式的与该汉字候选项意思相应的假名。如：1価格（かがく）、2科学（かがく）、3歌学（かがく）、4化学（かがく）、5花岳（かがく）等。当然，汉字候选项之后的第三字符串并不仅限于为假名，在其他实施方式中，第三字符串还可为与汉字候选项意思对应的英文候选，或者为假名及与汉字候选项意思对应的英文候选。而第三字符串的选择，可以通过但不仅限于通过提供相应选择项以供用户设置。

第二显示模块670用于获取用户的第一命令，在所述第一命令为确定命令时，获取并显示用户确定的第二字符串组合，其中，第二显示模块670使所述第二字符串组合中的第三字符串获得焦点。在本实施方式中，所述确定命令是键盘的“enter”键所触发的命令，第三字符串获得焦点表现为第三字符串加下划线。例如，在第一显示模块650显示的第二字符串组合列表中，用户选择“1価格（かがく）”，并按下“enter”键，第二显示模块670则显示：“価格（かがく）”。当然，所述确定命令不仅限于是键盘的“enter”键所触发的命令，在其他应用实施方式中，可以根据用户的习惯进行设置确定命令，如设置键盘的“Alt”键触发确定命令，或者鼠标右击触发确定命令等。另外，第三字符串获得焦点的方式也不仅限于表现为第三字符串加下划线，在其他具体应用中，可以设置为任意具有标识性的方式。例如：设置第三字符串高亮以获得焦点等。

第三显示模块680用于获取用户的第二命令，在所述第二命令为确定命令时，显示所述用户确定的第二字符串组合；在所述第二命令为变换命令时，查询电子装置600建立的汉字与假名的词典和/或查询电子装置600建立的日文与英文的词典，获取并顺序显示与所述第二字符串组合中的汉字候选项意思对应的第四字符串列表。

进一步举例说明，第二显示模块670中的第三字符串获得焦点，如“価格（かがく）”，此时，在用户按下“enter”键（即触发确定命令）时，第三显示模块680显示“価格（かがく）”。在用户按下空格键（即触发变换命令）时，第三显示模块680查询相关词典，获取并显示与汉字候选项“価格”意思对应的第四字符串，该第四字符串为“かがく、カガク、kagaku、science、かがく，science”等。当然，第四字符串并非必须为平假名候选项、或片假名候选项、或假名罗马字候选项、或英文候选项、或假名候选项及英文候选项，在其他具体实施方式中，第四字符串可为上述候选项中的一个或者几个，也可以为根据相关词典获取的其他与汉字候选项意思对应的候选项。

另外，本实施方式中，第三显示模块680并不限于通过查询电子装置600建立的假名-汉字词典，获取相应的第四字符串。在其他实施方式中，第三显示模块680还可以查询其他的假名-汉字词典和假名-英文词典，或者结合电子装置600建立的相关词典和其他的相关词典进行查询。

第四显示模块690用于获取用户确定的第四字符串，显示所述第二字符串组合中的汉字候选项和具有预定格式的所述确定的第四字符串。本实施方式中，预定格式为括号格式。例如：用户确定的第四字符串为“かがく，science”，第四显示模块690即显示“価格（かがく，science）”。

以上所述仅为本发明的实施方式，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种在线自动挖掘新词的方法，其特征在于，包括：

获取语料中的具有预设字符串形式的候选项集合；

根据已建立的具有预设语言形式组合的词对齐模型，获取所述候选项集合中候选项所对应的部分字符的概率；

判断所述候选项集合中候选项所对应的部分字符的概率是否达到第二阈值，若达到所述第二阈值，则所述候选项集合中候选项即为挖掘到的新词；

获取语料中的候选项集合的步骤包括：

从所述语料中收集具有预设形式的第一字符串组合，并获取其中的候选项，所述候选项是预设形式的第一字符串组合中的第一字符串，所述第一字符串组合包括所述第一字符串和第二字符串，其中，所述第一字符串在所述第二字符串的前面且紧邻所述第二字符串；

通过相似度算法，获得候选项集合，所述候选项集合是通过所述相似度算法得到的相似度得分达到第一阈值的候选项的集合；

通过相似度算法，获得候选项集合，所述候选项集合是通过所述相似度算法得到的相似度得分达到第一阈值的候选项的集合。

2.根据权利要求1所述的方法，其特征在于：

所述根据已建立的具有预设语言形式组合的词对齐模型，获取所述候选项集合中候选项所对应的部分字符的概率的步骤包括：

根据已建立的第一语言形式和第二语言形式组合的词对齐模型，获取所述候选项集合中候选项所对应的第一字符串组合的概率，所述第一语言形式以第一字符表示，所述第二语言形式以第二字符表示；

所述判断所述候选项集合中候选项所对应的部分字符的概率是否达到第二阈值的步骤包括：

判断所述候选项集合中候选项的加权得分是否达到第二阈值，其中，所述候选项集合中候选项的加权得分是根据所述候选项集合中候选项的相似度得分和所述候选项集合中候选项所对应的第一字符串组合的概率进行加权相加获得的。

3.根据权利要求2所述的方法，其特征在于，所述根据已建立的第一语言形式和第二语言形式组合的词对齐模型，获取所述候选项集合中候选项所对应的第一字符串组合的概率的步骤之前，包括：

根据已有的第一语言形式和第二语言形式组合的词典，通过最大期望算法建立第一语言形式和第二语言形式组合的词对齐模型。

4.根据权利要求3所述的方法，其特征在于，所述第一语言形式和第二语言形式组合的词对齐模型是从左向右，按照所述第一字符对照一个或多个所述第二字符的方式进行对齐。

5.根据权利要求2所述的方法，其特征在于，所述通过相似度算法，获得第一候选项集合，所述第一候选项集合是通过所述相似度算法得到的相似度得分达到第一阈值的候选项的集合的步骤，包括：

通过相似度算法，获得每个所述候选项的相似度得分，其中，所述候选项的相似度得分是：

LH(c)＝freq(c)-E[freq(c)]，

6.根据权利要求5所述的方法，其特征在于，所述freq(c)的数学期望是：

7.根据权利要求1至6任一项所述的方法，其特征在于，所述第一字符串和所述第二字符串分别是汉字和假名。

8.根据权利要求1至6任一项所述的方法，其特征在于，所述第一字符串和所述第二字符串分别是一种语言的单词和与所述语言的单词对应的另一种语言的单词。

9.根据权利要求2至6任一项所述的方法，其特征在于，所述预设形式是表征所述第一字符串组合的形式，所述第一字符串组合包括所述第一字符串并后紧跟括号内的所述第二字符串。

10.根据权利要求3所述的方法，其特征在于，判断所述候选项集合中候选项为挖掘到的新词步骤之后，包括：

获取用户输入的第二字符串，查询所述词典，获取并顺序显示与所述输入的第二字符串意思对应的第一字符串候选项列表；

判断用户输入的第二字符串之后是否输入预定字符，如果是，则顺序显示第二字符串组合列表，所述第二字符串组合为与所述输入的第二字符串意思对应的第一字符串候选项和具有预定格式的第三字符串的组合；

获取用户的第一命令，在所述第一命令为确定命令时，获取并显示用户确定的第二字符串组合，其中，使所述第二字符串组合中的第三字符串获得焦点；

获取用户的第二命令，在所述第二命令为确定命令时，显示所述用户确定的第二字符串组合，并结束流程，在所述第二命令为变换命令时，查询所述词典，获取并顺序显示与所述第二字符串组合中的第一字符串候选项意思对应的第四字符串列表；

获取用户确定的第四字符串，显示所述第二字符串组合中的第一字符串候选项和具有预定格式的所述确定的第四字符串。

11.根据权利要求10所述的方法，其特征在于，所述第一字符串为汉字，所述第二字符串为假名，所述预定字符为左括号。

12.根据权利要求11所述的方法，其特征在于，所述第三字符串包括输入的假名和/或与汉字候选项意思对应的英文候选项；

所述第四字符串包括与其前面的汉字候选项意思对应的假名候选项和/或英文候选项。

13.根据权利要求12所述的方法，其特征在于，所述第四字符串中的假名候选项包括平假名、或片假名、或假名罗马字候选项。

14.根据权利要求11所述的方法，其特征在于，所述查询所述的词典的步骤包括：查询本方法建立的汉字与假名的词典和/或查询本方法建立的日文与英文的词典。

15.根据权利要求10所述的方法，其特征在于，所述预定格式为括号格式。

16.根据权利要求10所述的方法，其特征在于，所述确定命令是键盘的“enter”键所触发的命令，所述变换命令是键盘的空格键所触发的命令，所述第三字符串获得焦点表现为所述第三字符串加下划线。

17.一种电子装置，其特征在于，包括：生成模块、第二获取模块以及第一判断模块；

所述生成模块用于获取语料中的具有预设字符串形式的候选项集合；

所述第二获取模块用于根据已建立的具有预设语言形式组合的词对齐模型，获取所述候选项集合中候选项所对应的部分字符的概率；

所述第一判断模块用于判断所述候选项集合中候选项所对应的部分字符的概率是否达到第二阈值，若达到所述第二阈值，则所述候选项集合中候选项即为挖掘到的新词；

还包括第一获取模块；

所述第一获取模块用于获取语料中的多个候选项，所述候选项是预设形式的第一字符串组合中的第一字符串，所述第一字符串组合包括所述第一字符串和第二字符串,其中，所述第一字符串在所述第二字符串的前面且紧邻所述第二字符串；

所述生成模块具体用于通过相似度算法，获得第一候选项集合，所述第一候选项集合是通过所述相似度算法得到的相似度得分达到第一阈值的候选项的集合。

18.根据权利要求17所述的装置，其特征在于：

所述第二获取模块具体用于根据已建立的第一语言形式和第二语言形式组合的词对齐模型，获取所述第一候选项集合中候选项所对应的第一字符串组合的概率，所述第一语言形式以第一字符表示，所述第二语言形式以第二字符表示；

所述第一判断模块具体用于判断所述第一候选项集合中候选项的加权得分是否达到第二阈值，在达到所述第二阈值时，将所述第一候选项集合中候选项定为挖掘到的新词，其中，所述第一候选项集合中候选项的加权得分是根据所述第一候选项集合中候选项的相似度得分和所述第一候选项集合中候选项所对应的所对应的第一字符串组合的概率进行加权相加获得的。

19.根据权利要求18所述的装置，其特征在于，所述第二获取模块包括建立单元，所述建立单元用于根据已有的第一语言形式和第二语言形式组合的词典，通过最大期望算法建立第一语言形式和第二语言形式组合的词对齐模型。

20.根据权利要求19所述的装置，其特征在于，所述建立单元具体用于建立从左向右、按照所述第一字符对照一个或多个所述第二字符的方式进行对齐的第一语言形式和第二语言形式组合的词对齐模型。

21.根据权利要求18所述的装置，其特征在于，所述生成模块包括获取单元以及判断单元；

所述获取单元用于通过相似度算法，获得每个所述候选项的相似度得分，其中，所述候选项的相似度得分是：

LH(c)＝freq(c)-E[freq(c)]，

22.根据权利要求21所述的装置，其特征在于，所述freq(c)的数学期望是：

23.根据权利要求18所述的装置，其特征在于，所述第一获取模块进一步用于从所述语料中收集具有预设形式的第一字符串组合。

24.根据权利要求17至23任一项所述的装置，其特征在于，所述第一字符串和所述第二字符串分别是汉字和假名。

25.根据权利要求17至23任一项所述的装置，其特征在于，所述第一字符串是一种语言的单词，所述第二字符串是与所述语言的单词对应的另一种语言的单词。

26.根据权利要求18至23任一项所述的装置，其特征在于，所述预设形式是表征所述第二字符串组合的形式，所述第二字符串组合包括所述第一字符串和括号内的所述第二字符串。

27.根据权利要求19所述的装置，其特征在于，所述装置还包括第一显示模块、第二判断模块、第二显示模块、第三显示模块及第四显示模块；

所述第一显示模块用于获取用户输入的第二字符串，查询所述词典，获取并顺序显示与所述输入的第二字符串意思对应的第一字符串候选项列表；

所述第二判断模块用于判断用户输入的第二字符串之后是否输入预定字符，并将判断结果向第一显示模块发送；

所述第一显示模块进一步用于在用户输入的第二字符串之后输入预定字符时，顺序显示第二字符串组合列表，所述第二字符串组合为与所述输入的第二字符串意思对应的第一字符串候选项和具有预定格式的第三字符串的组合；

所述第二显示模块用于获取用户的第一命令，在所述第一命令为确定命令时，获取并显示用户确定的第二字符串组合，其中，使所述第二字符串组合中的第三字符串获得焦点；

所述第三显示模块用于获取用户的第二命令，在所述第二命令为确定命令时，显示所述用户确定的第二字符串组合；在所述第二命令为变换命令时，查询所述词典，获取并顺序显示与所述第二字符串组合中的第一字符串候选项意思对应的第四字符串列表；

所述第四显示模块用于获取用户确定的第四字符串，显示所述第二字符串组合中的第一字符串候选项和具有预定格式的所述确定的第四字符串。

28.根据权利要求27所述的装置，其特征在于，所述第一字符串为汉字，所述第二字符串为假名，所述预定字符为左括号。

29.根据权利要求28所述的装置，其特征在于，所述第三字符串包括输入的假名和/或与汉字候选项意思对应的英文候选项；

30.根据权利要求29所述的装置，其特征在于，所述第四字符串中的假名候选项包括平假名、或片假名、或假名罗马字候选项。

31.根据权利要求28所述的装置，其特征在于，所述查询的词典包括所述装置建立的汉字与假名的词典和/或所述装置建立的日文与英文的词典。

32.根据权利要求27所述的装置，其特征在于，所述预定格式为括号格式。

33.根据权利要求27所述的装置，其特征在于，所述确定命令是键盘的“enter”键所触发的命令，所述变换命令是键盘的空格键所触发的命令，所述第三字符串获得焦点表现为所述第三字符串加下划线。