CN104077298B

CN104077298B - 基于组合词的词典挖掘方法及系统

Info

Publication number: CN104077298B
Application number: CN201310102769.XA
Authority: CN
Inventors: 吴先超; 何径舟; 龚天雪
Original assignee: Baidu International Technology Shenzhen Co Ltd
Current assignee: Baidu International Technology Shenzhen Co Ltd
Priority date: 2013-03-27
Filing date: 2013-03-27
Publication date: 2017-10-03
Anticipated expiration: 2033-03-27
Also published as: CN104077298A

Abstract

本发明提出一种基于组合词的词典挖掘方法及系统。其中，方法包括以下步骤：服务器获取多个语料并将多个语料中每一个句子分词为多个文节；服务器从多个文节中挖掘特殊文节；服务器对特殊文节进行过滤和筛选以获得特殊文节中的组合词；服务器通过特殊文节中的组合词的出现频次生成组合词词典；服务器通过组合词词典更新输入法模型。根据本发明实施例的方法，通过从大规模语料库中挖掘出特殊文节的组合词并建立组合词词典，使得用户输入特殊文节的组合词的一部分内容时，服务器将特殊文节的组合词中的另一部分内容或全部内容显示在输入界面中，从而提高了用户的录入速度，方便用户使用。

Description

基于组合词的词典挖掘方法及系统

技术领域

本发明涉及输入法技术领域，特别涉及一种基于组合词的词典挖掘方法及系统。

背景技术

网络中存在大规模地日文组合词，例如，两个名词组成的新的复合词、搭配词，具体地如，动词和宾语搭配等。这些复合词和搭配词对输入法的变换精度和预测精度有重要的影响。

目前，输入法是根据用户输入的假名来对应显示相应的内容或汉字，并且显示的汉字或假名是按照日常使用情况进行排序的。

现有的输入法不能根据前后的组合或搭配关系动态地调整后续输入内容的显示位置，需要用户手动的翻页来查找需要输入的内容，或者是一一点击组合需要输入的内容，从而影响了用户的处理效率，特别是在一些新词的输入过程中需要用户进行更多的操作，影响了用户的输入速度，用户体验度较差。

发明内容

本发明的目的旨在至少解决上述的技术缺陷之一。

为此，本发明的一个目的在于提出一种基于组合词的词典挖掘方法。

本发明的另一目的在于提出一种基于组合词的词典挖掘系统。

为达到上述目的，本发明一方面的实施例提出一种基于组合词的词典挖掘方法，包括以下步骤：服务器获取多个语料并将所述多个语料中每一个句子分词为多个文节；所述服务器从所述多个文节中挖掘特殊文节；所述服务器对所述特殊文节进行过滤和筛选以获得特殊文节中的组合词；所述服务器通过所述特殊文节中的组合词的出现频次生成所述组合词词典；以及所述服务器通过所述组合词词典更新输入法模型。

根据本发明实施例的方法，通过从大规模语料库中挖掘出特殊文节的组合词并建立组合词词典，使得用户输入特殊文节的组合词的一部分内容时，服务器会将特殊文节的组合词中的另一部分内容或全部内容显示在输入界面中，从而提高了用户的录入速度，方便用户使用，提高了用户的满意度和体验度。

在本发明的一个实施例中，当用户输入特殊文节的所述组合词的一部分内容时，所述服务器将特殊文节的所述组合词中的另一部分内容或全部内容显示在输入界面中。

在本发明的一个实施例中，方法还包括：所述服务器根据所述特殊文节中搭配词的出现频次生成所述搭配词词典，并通过所述搭配词词典更新输入法模型。

在本发明的一个实施例中，当用户输入特殊文节的所述搭配词的全部或一部分内容时，所述服务器将特殊文节的所述搭配词中的另一部分内容或全部内容显示在输入界面中。

在本发明的一个实施例中，方法还包括：所述服务器在预设周期内对互联网中新增网页进行抓取；所述服务器对所述新增网页进行组合词和搭配词挖掘，以获得从所述新增网页中挖掘出的组合词和挖掘词；如果所述挖掘出的组合词或搭配词的出现频率超过预设值，则将所述挖掘出的组合词或搭配词的添加到所述组合词词典或搭配词词典中。

在本发明的一个实施例中，对所述特殊文节进行过滤和筛选包括：去除所述特殊文节的前后非自立词和标点符号以保留所述特殊文节的中心词。

在本发明的一个实施例中，所述特殊文节包括单文节、多文节和非连续文节中的一种或多种。

在本发明的一个实施例中，所述输入法模型为日文输入法模型、英文输入法模型或中文输入法模型。

本发明另一方面的实施例提出了一种基于组合词的词典挖掘系统，包括：分词模块，用于服务器获取多个语料并将所述多个语料中每一个句子分词为多个文节；挖掘模块，用于所述服务器从所述多个文节中挖掘特殊文节；过滤模块，用于所述服务器对所述特殊文节进行过滤和筛选以获得特殊文节中的组合词；第一词典模块，用于所述服务器通过所述特殊文节中的组合词的出现频次生成所述组合词词典；以及更新模块，用于所述服务器通过所述组合词词典更新输入法模型。

根据本发明实施例的系统，通过从大规模语料库中挖掘出特殊文节的组合词并建立组合词词典，使得用户输入特殊文节的组合词的一部分内容时，服务器会将特殊文节的组合词中的另一部分内容或全部内容显示在输入界面中，从而提高了用户的录入速度，方便用户使用，提高了用户的满意度和体验度。

在本发明的一个实施例中，系统还包括：第二词典模块，用于根据所述特殊文节中搭配词的出现频次生成所述搭配词词典，并通过所述搭配词词典更新输入法模型。

在本发明的一个实施例中，所述输入法控制模块在用户输入特殊文节的所述搭配词的全部或一部分内容时，将特殊文节的所述搭配词中的另一部分内容或全部内容显示在输入界面中。

在本发明的一个实施例中，系统还包括：更新模块，用于在预设周期内对互联网中新增网页进行抓取，并对所述新增网页进行组合词和搭配词挖掘，以获得从所述新增网页中挖掘出的组合词和挖掘词，以及在所述挖掘出的组合词或搭配词的出现频率超过预设值时，将所述挖掘出的组合词或搭配词的添加到所述组合词词典或搭配词词典中。

在本发明的一个实施例中，所述过滤模块去除所述特殊文节的前后非自立词和标点符号以保留所述特殊文节的中心词。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本发明一个实施例的基于组合词的词典挖掘方法的流程图；

图2和图3为根据本发明一个实施例的各个文节之间的语义依存关系示意图；

图4为根据本发明一个实施例的基于组合词的词典挖掘系统的框架图；

图5为根据本发明另一个实施例的基于组合词的词典挖掘系统的框架图。

具体实施方式

下面详细描述本发明的实施例，实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

在本发明的描述中，需要理解的是，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”、“第三”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

图1为本发明实施例的基于组合词的词典挖掘方法的流程图。如图1所示，根据本发明实施例的基于组合词的词典挖掘方法，包括以下步骤：

步骤S101，服务器获取多个语料并将多个语料中每一个句子分词为多个文节。

具体地，通过服务器获取网页语料，例如可采用教师指导的学习方法，将大量的网页语料中每一个句子分词为多个文节。在本发明的一个实施例中，可采用教师指导的学习方法，确定分词后生成的多个文节之间的语义依存关系。教师指导学习方法为本领域中已知的学习方法，在此不再赘述。

在本发明的一个实施例中，文节由一个中心词后接0个到多个附属词。例如，对如下语句“情報検索は私の専攻分野です。”和“離乳食をたくさん食べてほしいと頭を痛める。”经过分词后生成对应的多个文节“情報検索は||私の||専攻分野です。”和“離乳食を||たくさん||食べてほしいと||頭を||痛める。”，同时其依存关系如图2和图3所示。

步骤S102，服务器从多个文节中挖掘特殊文节。特殊文节包括单文节、多文节和非连续文节中的一种或多种。

在本发明的一个实施例中，所挖掘的特殊文节分别为“情報検索は”、“私の”、“専攻分野です。”和“たくさん||食べてほしいと”、“頭を||痛める。”

步骤S103，服务器对特殊文节进行过滤和筛选以获得特殊文节中的组合词。

在本发明的一个实施例中，对特殊文节进行过滤和筛选包括：去除特殊文节的前后非自立词和标点符号以保留特殊文节的中心词。对上述所获得的“情報検索は”、“私の”、“専攻分野です。”和“たくさん||食べてほしいと”、“頭を||痛める。”进行过滤和筛选之后获得单文节组合词为“情報検索”和“専攻分野”，双文节组合词为“たくさん||食べてほしい”和“頭を||痛める”。

步骤S104，服务器通过特殊文节中的组合词的出现频次生成组合词词典。

具体地，通过特殊文节中组合词的出现频次决定是否将其组合词作为组合词词典的一个元素。例如，对于上述两个单文节组合词和两个双文节组合词而言，“情報検索”和“専攻分野”为复合名词，而“たくさん||食べてほしい”为一般的组合关系，其中将“情報検索”和“専攻分野”作为组合词词典的元素。

在本发明的一个实施例中，服务器根据特殊文节中搭配词的出现频次生成搭配词词典。例如，搭配词“頭を||痛める”属于固定的搭配词语并且其出现频次较高，因此将其添加到搭配词词典中。

在本发明的一个实施例中，特殊文节包括单文节，语义依存关系自给自足的多文节和存在非局部语义依存关系的非连续的多个文节。单文节，双文节等，都是分别独立挖掘的，分别生成不同的组合词词典，再统一使用。

在本发明的一个实施例中，“预测”和“汉字候选”界面中会显示“<複合語>，<hot>，<new>”等标签。这里“複合語”对应中文的“复合词”（代表“组合词”和“搭配词”），“hot”对应“热词”，“new”对应“新词”。这里，“<複合語>”是必须显示的，而“<hot>”和“<new>”不能同时使用，即一个复合词不能同时是新词和热词。

在本发明的一个实施例中，服务器在预设周期内，例如，时隔一周或每个月两次对互联网中新增网页进行抓取，其抓取内容为新增网页中的组合词和搭配词，从而获得新增网页中挖掘出的组合词和挖掘词。如果挖掘出的组合词或搭配词的出现频率超过预设值，例如从原有的出现频次1000上升到1000000，则将挖掘出的组合词或搭配词的添加到组合词词典或搭配词词典中。例如，新词“部屋の中の雲”（屋子里的云），是日本的一个最新的发明。这个词，在一个月前，词频非常低，不过这一个月，广泛出现于各个网页，频次急速上升。当用户输入到“へや”（部屋）的时候，输入法会在“预测”界面里面显示“へや”读音开头的词条，也包括复合词“部屋の中の雲”，方便用户或吸引用户的眼球去baidu搜索url查找进一步的相关网页信息等。

步骤S105，服务器通过组合词词典更新输入法模型。其中，输入法模型为日文输入法模型、英文输入法模型或中文输入法模型。

具体地，当用户输入特殊文节的组合词的一部分内容时，服务器将特殊文节的组合词中的另一部分内容或全部内容显示在输入界面中。例如，当用户输入“せんこう”的时候输入界面除了出现“専攻”意外还会出现“専攻分野”这个复合词使用户可以快速的查找减少录入时间。

在本发明的一个实施例中，当用户输入特殊文节的搭配词的全部或一部分内容时，会将特殊文节的搭配词中的另一部分内容或相符合的全部内容显示在输入界面中。例如，当用户输入“あたまをいためる”的时候选择同音动词“いためる-痛める/炒める”中的哪个。显然，如果给用户推送“頭を炒める”（炒头）的话，就会出现问题，因此服务器会将搭配关系“痛める”显示在“炒める”之前供用户选择。再例如，对于搭配词“もしかしたら…かもしれない”而言，当用户输入“もしかしたら”的时候服务器直接在输入界面显示“もしかしたら”“もしかしたらかもしれない”“もしかしたらかもしれません”等。

在本发明的一个实施例中，为了避免过多复合词的新词和热词引起用户的眼花缭乱，服务器控制新词和热词的整体数量。例如，分别不超过1000个，按照出现频次从高到低对“新词”“热词”分别排序，然后分别取两者没有交集的前1000个，作为“新词”和“热词”集合。

根据本发明实施例的方法，通过从大规模语料库中挖掘出特殊文节的组合词并建立组合词词典，使得用户输入特殊文节的组合词的一部分内容时，服务器将特殊文节的组合词中的另一部分内容或全部内容显示在输入界面中，从而提高了用户的录入速度，方便用户使用，提高了用户的满意度和体验度。

图4为根据本发明一个实施例的基于组合词的词典挖掘系统的框架图。如图4所示，根据本发明实施例的基于组合词的词典挖掘系统包括：分词模块100、挖掘模块200、过滤模块300、第一词典模块400和更新模块500。

分词模块100用于获取多个语料并将多个语料中每一个句子分词为多个文节。

具体地，通过获取网页语料，采用教师指导的学习方法，将大量的网页语料中每一个句子分词为多个文节。采用教师指导的学习方法，确定分词后生成的多个文节之间的语义依存关系。

挖掘模块200用于从多个文节中挖掘特殊文节。特殊文节包括单文节、多文节和非连续文节中的一种或多种。

过滤模块300用于对特殊文节进行过滤和筛选以获得特殊文节中的组合词。

在本发明的一个实施例中，过滤模块300去除特殊文节的前后非自立词和标点符号以保留特殊文节的中心词。对上述所获得的“情報検索は”、“私の”、“専攻分野です。”和“たくさん||食べてほしいと”、“頭を||痛める。”进行过滤和筛选之后获得单文节组合词为“情報検索”和“専攻分野”，双文节组合词为“たくさん||食べてほしい”和“頭を||痛める”。

第一词典模块400用于过特殊文节中的组合词的出现频次生成组合词词典。

具体地，第一词典模块400通过特殊文节中组合词的出现频次决定是否将其组合词作为组合词词典的一个元素。例如，对于上述两个单文节组合词和两个双文节组合词而言，“情報検索”和“専攻分野”为复合名词，而“たくさん||食べてほしい”为一般的组合关系，其中将“情報検索”和“専攻分野”作为组合词词典的元素。

更新模块500用于通过组合词词典更新输入法模型。其中，输入法模型为日文输入法模型、英文输入法模型或中文输入法模型。

在本发明的一个实施例中，更新模块500在预设周期内，例如，时隔一周或每个月两次对互联网中新增网页进行抓取，并对抓取内容为新增网页组合词，从而获得新增网页中挖掘出的组合词。如果挖掘出的组合词的出现频率超过预设值时，例如从原有的出现频次1000上升到1000000，将挖掘出的组合词添加到组合词词典中。例如，新词“部屋の中の雲”（屋子里的云），是日本的一个最新的发明。这个词，在一个月前，词频非常低，不过这一个月，广泛出现于各个网页，频次急速上升。当用户输入到“へや”（部屋）的时候，输入法会在“预测”界面里面显示“へや”读音开头的词条，也包括复合词“部屋の中の雲”，方便用户或吸引用户的眼球去baidu搜索url查找进一步的相关网页信息等。

图5为根据本发明另一个实施例的基于组合词的词典挖掘系统的框架图。如图5所示，根据本发明实施例的基于组合词的词典挖掘系统还包括输入法控制模块600和第二词典模块700。

输入法控制模块600用于当用户输入特殊文节的所述组合词的一部分内容时，将特殊文节的所述组合词中的另一部分内容或全部内容显示在输入界面中。

第二词典模块700用于根据所述特殊文节中搭配词的出现频次生成所述搭配词词典，并通过所述搭配词词典更新输入法模型。

在本发明的一个实施例中，第二词典模块700根据特殊文节中搭配词的出现频次生成搭配词词典。例如，搭配词“頭を||痛める”属于固定的搭配词语并且其出现频次较高，因此将其添加到搭配词词典中。

在本发明的一个实施例中，更新模块500在预设周期内，例如，时隔一周或每个月两次对互联网中新增网页进行抓取，并对抓取内容为新增网页搭配词，从而获得新增网页中挖掘出的搭配词。如果挖掘出的搭配词的出现频率超过预设值时，将挖掘出的搭配词添加到搭配词词典中。

在本发明的一个实施例中，当用户输入特殊文节的组合词的一部分内容时，输入法控制模块600将特殊文节的组合词中的另一部分内容或全部内容显示在输入界面中。例如，当用户输入“せんこう”的时候输入界面除了出现“専攻”意外还会出现“専攻分野”这个复合词使用户可以快速的查找减少录入时间。

在本发明的一个实施例中，当用户输入特殊文节的搭配词的全部或一部分内容时，输入法控制模块600将特殊文节的搭配词中的另一部分内容或相符合的全部内容显示在输入界面中。例如，当用户输入“あたまをいためる”的时候选择同音动词“いためる-痛める/炒める”中的哪个。显然，如果给用户推送“頭を炒める”（炒头）的话，就会出现问题，因此输入法控制模块将搭配关系“痛める”显示在“炒める”之前供用户选择。再例如，对于搭配词“もしかしたら…かもしれない”而言，当用户输入“もしかしたら”的时候服务器直接在输入界面显示“もしかしたら”“もしかしたらかもしれない”“もしかしたらかもしれません”等。

在本发明的一个实施例中，为了避免过多复合词的新词和热词引起用户的眼花缭乱，输入法控制模块600控制“新词”和“热词”的整体数量。例如，分别不超过1000个，按照出现频次从高到低对“新词”“热词”分别排序，然后分别取两者没有交集的前1000个，作为“新词”和“热词”集合。

根据本发明实施例的系统，通过从大规模语料库中挖掘出特殊文节的组合词并建立组合词词典，使得用户输入特殊文节的组合词的一部分内容时，输入法控制模块将特殊文节的组合词或搭配词中的另一部分内容或全部内容显示在输入界面中，从而提高了用户的录入速度，方便用户使用，提高了用户的满意度和体验度。

应当理解，本发明的系统实施例中的各个模块和单元的具体操作过程可与方法实施例中的描述相同，此处不再详细描述。

在本发明的一个实施例中，特殊文节包括所有单文节，语义依存关系自给自足的多文节和存在非局部语义依存关系的非连续的多个文节。单文节，双文节等，都是分别独立挖掘的，分别生成不同的组合词词典，最后再统一使用。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在不脱离本发明的原理和宗旨的情况下在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于组合词的词典挖掘方法，其特征在于，包括以下步骤：

服务器获取多个语料并将所述多个语料中每一个句子分词为多个文节；

所述服务器从所述多个文节中挖掘特殊文节；

所述服务器对所述特殊文节进行过滤和筛选以获得特殊文节中的组合词；

所述服务器通过所述特殊文节中的组合词的出现频次生成所述组合词词典；

所述服务器通过所述组合词词典更新输入法模型。

2.根据权利要求1所述的基于组合词的词典挖掘方法，其特征在于，当用户输入特殊文节的所述组合词的一部分内容时，所述服务器将特殊文节的所述组合词中的另一部分内容或全部内容显示在输入界面中。

3.根据权利要求1或2所述的基于组合词的词典挖掘方法，其特征在于，还包括：

所述服务器根据所述特殊文节中搭配词的出现频次生成所述搭配词词典，并通过所述搭配词词典更新输入法模型。

4.根据权利要求3所述的基于组合词的词典挖掘方法，其特征在于，当用户输入特殊文节的所述搭配词的全部或一部分内容时，所述服务器将特殊文节的所述搭配词中的另一部分内容或全部内容显示在输入界面中。

5.根据权利要求4所述的基于组合词的词典挖掘方法，其特征在于，还包括：

所述服务器在预设周期内对互联网中新增网页进行抓取；

所述服务器对所述新增网页进行组合词和搭配词挖掘，以获得从所述新增网页中挖掘出的组合词和挖掘词；

如果所述挖掘出的组合词或搭配词的出现频率超过预设值，则将所述挖掘出的组合词或搭配词的添加到所述组合词词典或搭配词词典中。

6.根据权利要求1所述的基于组合词的词典挖掘方法，其特征在于，对所述特殊文节进行过滤和筛选包括：

去除所述特殊文节的前后非自立词和标点符号以保留所述特殊文节的中心词。

7.根据权利要求1或2所述的基于组合词的词典挖掘方法，其特征在于，所述特殊文节包括单文节、多文节和非连续文节中的一种或多种。

8.根据权利要求1或2所述的基于组合词的词典挖掘方法，其特征在于，所述输入法模型为日文输入法模型、英文输入法模型或中文输入法模型。

9.一种基于组合词的词典挖掘系统，其特征在于，包括：

分词模块，用于获取多个语料并将所述多个语料中每一个句子分词为多个文节；

挖掘模块，用于从所述多个文节中挖掘特殊文节；

过滤模块，用于对所述特殊文节进行过滤和筛选以获得特殊文节中的组合词；

第一词典模块，用于通过所述特殊文节中的组合词的出现频次生成所述组合词词典；以及

更新模块，用于通过所述组合词词典更新输入法模型。

10.根据权利要求9所述的基于组合词的词典挖掘系统，其特征在于，还包括：

输入法控制模块，用于当用户输入特殊文节的所述组合词的一部分内容时，将特殊文节的所述组合词中的另一部分内容或全部内容显示在输入界面中。

11.根据权利要求9或10所述的基于组合词的词典挖掘系统，其特征在于，还包括：

第二词典模块，用于根据所述特殊文节中搭配词的出现频次生成所述搭配词词典，并通过所述搭配词词典更新输入法模型。

12.根据权利要求11所述的基于组合词的词典挖掘系统，其特征在于，所述输入法控制模块在用户输入特殊文节的所述搭配词的全部或一部分内容时，将特殊文节的所述搭配词中的另一部分内容或全部内容显示在输入界面中。

13.根据权利要求12所述的基于组合词的词典挖掘系统，其特征在于，还包括：

更新模块，用于在预设周期内对互联网中新增网页进行抓取，并对所述新增网页进行组合词和搭配词挖掘，以获得从所述新增网页中挖掘出的组合词和挖掘词，以及在所述挖掘出的组合词或搭配词的出现频率超过预设值时，将所述挖掘出的组合词或搭配词的添加到所述组合词词典或搭配词词典中。

14.根据权利要求9所述的基于组合词的词典挖掘系统，其特征在于，所述过滤模块去除所述特殊文节的前后非自立词和标点符号以保留所述特殊文节的中心词。

15.根据权利要求9或10所述的基于组合词的词典挖掘系统，其特征在于，所述特殊文节包括单文节、多文节和非连续文节中的一种或多种。

16.根据权利要求9或10所述的基于组合词的词典挖掘系统，其特征在于，所述输入法模型为日文输入法模型、英文输入法模型或中文输入法模型。