CN111079428A

CN111079428A - 一种分词和行业词典构建方法、装置以及可读存储介质

Info

Publication number: CN111079428A
Application number: CN201911374500.0A
Authority: CN
Inventors: 张征; 冯小琴; 雷欣; 李志飞
Original assignee: Mobvoi Information Technology Co Ltd
Current assignee: Beijing Yufanzhi Information Technology Co ltd
Priority date: 2019-12-27
Filing date: 2019-12-27
Publication date: 2020-04-28
Anticipated expiration: 2039-12-27
Also published as: CN111079428B

Abstract

本发明公开了一种分词和行业词典构建方法、装置以及可读存储介质，包括：获取文本信息；根据所获取的文本信息中字词所对应的领域，选取若干个对应的行业词典；利用所选取的行业词典，对所述文本信息进行分词处理，得到分词结果。通过文本中字词的领域选取所对应领域的行业词典，利用所选取的行业词典对文本信息进行分词处理，相比较于现有中使用通用词典来说，能够节省空间资源、减少系统运算量和提升系统性能的效果。

Description

一种分词和行业词典构建方法、装置以及可读存储介质

技术领域

本发明涉及语音合成技术领域，尤其涉及一种分词和行业词典构建方法、装置以及可读存储介质。

背景技术

词典对于TTS的性能至关重要，它影响TTS系统的分词结果进而影响到词的读音等。一般来说，每个领域都有每个领域专属的词汇，比如化学里的各种试剂名称，或者导航里的各种没听过的地名，这些词在我们生活中很少用到，有些甚至不知道怎么读，但在这个行业的人就能一眼分辨，这就是词汇的行业领域相关性。然而现有的TTS系统一般使用一个通用的词典，通用的词典中含有大量的词汇，这将导致TTS系统在使用词典时增加系统的计算量，导致性能下降。

发明内容

本发明实施例提供了一种分词和行业词典构建方法、装置以及可读存储介质，在分词处理时，能够节省空间资源、减少系统运算量和提升系统性能的效果。

本发明一方面提供一种分词方法，所述方法包括：获取文本信息；

根据所获取的文本信息中字词所对应的领域，选取若干个对应的行业词典；利用所选取的行业词典，对所述文本信息进行分词处理，得到分词结果。

在一可实施方式中，所述利用所选取的行业词典，对所述文本信息进行分词处理，得到分词结果，包括：对所述文本信息中的文字进行拆分，得到所有的分词组合；针对每一分词组合，从所述行业词典中查询所述分词组合中每一分词的词频；根据每一分词组合中所有分词所对应的词频，得到最优分词组合；将所得到的最优分词组合作为分词结果。

在一可实施方式中，所述根据每一分词组合中所有分词所对应的词频，得到最优分词组合，包括：将每一分词组合中的所有对应于分词的词频相加，分别计算得到综合词频；从所有分词组合中选取综合词频最大的分词组合作为最优分词组合。

在一可实施方式中，在选取对应的若干个行业词典之后，所述方法还包括：合并所选取的行业词典，得到综合词典；相应的，所述针对每一分词组合，从所述行业词典中查询所述分词组合中每一分词的词频，包括：针对每一分词组合，从所述综合词典中查询所述分词组合中每一分词的词频。

在一可实施方式中，在根据所获取的文本信息中字词所对应的领域，选取若干个对应的行业词典之后，所述方法还包括：加载所选取的行业词典至本地端；利用本地端的行业词典对所述文本信息进行分词处理，得到分词结果。

本发明另一方面提供一种行业词典的构建方法，所述方法包括：创建指定领域的行业词典；在所创建的行业词典中至少增设所述领域内的行业词汇以及对应的词频；对所增设的行业词汇设置词频等级；根据所设置的词频等级，对所述行业词汇确定指定词频范围内的词频。

本发明另一方面提供一种分词装置，所述装置包括：文本获取模块，用于获取文本信息；行业词典选取模块，用于根据所获取的文本信息中字词所对应的领域，选取若干个对应的行业词典；文本分词模块，用于利用所选取的行业词典，对所述文本信息进行分词处理，得到分词结果。

本发明另一方面提供一种行业词典的构建装置，所述装置包括：词典创建模块，用于创建指定领域的行业词典；词典属性增设模块，用于在所创建的行业词典中至少增设所述领域内的行业词汇以及对应的词频；词频等级设置模块，用于对所增设的行业词汇设置词频等级；词频确定模块，用于根据所设置的词频等级，对所述行业词汇确定指定词频范围内的词频。

本发明另一方面提供一种计算机可读存储介质，所述存储介质包括一组计算机可执行指令，当所述指令被执行时用于执行一种分词方法。

本发明另一方面提供一种计算机可读存储介质，所述存储介质包括一组计算机可执行指令，当所述指令被执行时用于执行行业词典的构建方法。

在本发明实施例中，通过文本中字词的领域选取所对应领域的行业词典，利用所选取的行业词典对文本信息进行分词处理，相比较于现有中使用通用词典来说，能够节省空间资源、减少系统运算量和提升系统性能的效果。

附图说明

通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：

在附图中，相同或对应的标号表示相同或对应的部分。

图1为本发明实施例一种分词方法的实现流程示意图；

图2为本发明实施例一种分词方法的具体实现流程示意图；

图3为本发明实施例一种分词装置的结构组成示意图；

图4为本发明实施例一种行业词典的构建方法的实现流程示意图；

图5为本发明实施例一种行业词典的构建装置的结构组成示意图。

具体实施方式

为使本发明的目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而非全部实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例一种分词方法的实现流程示意图。

如图1所示，本发明一方面提供一种分词方法，方法包括：

步骤101，获取文本信息；

步骤102，根据所获取的文本信息中字词所对应的领域，选取若干个对应的行业词典；

步骤103，利用所选取的行业词典，对文本信息进行分词处理，得到分词结果。

本实施例中，首先获取文本信息，其中，获取方式可以从线上获取，也可以在线下撰写获取。

接着用户可以根据文本信息中的字词信息，并判断该字词信息所对应的领域，也可以通过神经网络模型提取文本信息中的字词并识别该字词所对应的领域。其中，神经网络模型需要事先利用大量语料对该识别方法进行预训练，训练方法由于是现有技术，在本实施例中不再详细阐述。

然后根据文字所对应的领域，选取一个或者多个对应的行业词典，选取的方式可以在交互界面上进行。其中，行业词典为针对某个领域的词典，比如“导航”，“教育”，“医疗”等等，在每个行业词典中均包括该领域的词汇、词频、词频等级和发音词性等信息。

接着利用所选取的行业词典，对文本信息进行分词处理，得到分词结果。

由此，通过文本中字词的领域选取所对应领域的行业词典，利用所选取的行业词典对文本信息进行分词处理，相比较于现有中使用通用词典来说，能够节省空间资源、减少系统运算量和提升系统性能的效果。

在一可实施方式中，利用所选取的行业词典，对文本信息进行分词处理，得到分词结果，包括：

对文本信息中的文字进行拆分，得到所有的分词组合；

针对每一分词组合，从行业词典中查询分词组合中每一分词的词频；

根据每一分词组合中所有分词所对应的词频，得到最优分词组合；

将所得到的最优分词组合作为分词结果。

本实施例中，步骤103的具体过程为：

对文本信息中的文字进行拆分，得到所有的分词组合；例如：文本信息为“中华人民共和国”，利用穷举法遍历该文本信息的所有可能的组合，比如“中”，“华”，“人民”，“共和国”是其中一组，“中”，“华人”，“民”，“共和国”是其中的另外一组，等等。

接着遍历所有分词组合，从行业词典中查询每一分词组合内的所有分词，并获取所有分词所对应的词频。

接着根据每一分词组合中所有分词所对应的词频，得到最优分词组合。

最后将所得到的最优分词组合作为分词结果。

在一可实施方式中，根据每一分词组合中所有分词所对应的词频，得到最优分词组，包括：

将每一分词组合中的所有对应于分词的词频相加，分别计算得到综合词频；

从所有分词组合中选取综合词频最大的分词组合作为最优分词组合。

本实施例中，上述步骤“根据每一分词组合中所有分词所对应的词频，得到最优分词组合”的具体过程为：

将每一分词组合中所有分词所对应的词频算术相加，得到对应的综合词频。

接着在所有分词组合中选取综合词频最大的分词组合，并将该分词组合作为最优分词组合。

在一可实施方式中，在选取对应的若干个行业词典之后，方法还包括：

合并所选取的行业词典，得到综合词典；

相应的，针对每一分词组合，从行业词典中查询分词组合中每一分词的词频，包括：

针对每一分词组合，从综合词典中查询分词组合中每一分词的词频。

本实施例中，在选取对应的行业词典之后，将所选取的行业词典中的所有分词信息以及相关属性进行合并，得到综合词典，相应的，在综合词典中查询分词组合中每一分词的词频。

在一可实施方式中，在根据所获取的文本信息中字词所对应的领域，选取若干个对应的行业词典之后，方法还包括：

加载所选取的行业词典至本地端；

利用本地端的行业词典对文本信息进行分词处理，得到分词结果。

本实施例中，行业词典为公共资源，在服务器的数据库中或者在云端服务器中，可能在同一时间段内有多个用户访问，为了防止该公共资源不被同一用户所占用，因此用户在通过交互界面选取若干个对应的行业词典之后，可由已设定程序的交互界面调用TTS(text to speech语音合成)系统的词典加载接口来加载用户所选择的行业词典加载到本地端，具体是加载到TTS系统中。再利用本地端的行业词典对文本信息进行分词处理，得到分词结果。

图2为本发明实施例一种分词方法的具体实现流程示意图。

分词方法的整体步骤如图2所示，

首先用户可通过交互界面选取若干个行业词典；

接着将用户所选取的若干个行业词典合并成综合词典；

将综合词典加载到TTS系统中，对文本进行分词处理。

多个用户可同时操作此方法，且互不影响。

图3为本发明实施例一种分词装置的结构组成示意图。

如图3所示，本发明另一方面提供一种分词装置，装置包括：

文本获取模块201，用于获取文本信息；

行业词典选取模块202，用于根据所获取的文本信息中字词所对应的领域，选取若干个对应的行业词典；

文本分词模块203，用于利用所选取的行业词典，对文本信息进行分词处理，得到分词结果。

本实施例中，首先通过文本获取模块201获取文本信息，其中，获取方式可以从线上获取，也可以在线下撰写获取。

接着通过行业词典选取模块202根据文本信息中的字词信息，并判断该字词信息所对应的领域，也可以通过神经网络模型提取文本信息中的字词并识别该字词所对应的领域。其中，神经网络模型需要事先利用大量语料对该识别方法进行预训练，训练方法由于是现有技术，在本实施例中不再详细阐述。

接着文本分词模块203利用所选取的行业词典，对文本信息进行分词处理，得到分词结果。

图4为本发明实施例一种行业词典的构建方法的实现流程示意图。

如图4所示，本发明另一方面提供一种行业词典的构建方法，方法包括：

步骤301，创建指定领域的行业词典；

步骤302，在所创建的行业词典中至少增设所述领域内的行业词汇以及对应的词频；

步骤303，对所增设的行业词汇设置词频等级；

步骤304，根据所设置的词频等级，对行业词汇确定指定词频范围内的词频。

本实施例中，首先创建指定领域的行业词典，领域包括教育、航空、建筑等等领域，也可以创建属于用户自己的用户词典，用户可以在用户词典中增设常用的词汇。

接着在所创建的行业词典中存入该领域内的行业词汇、对应的词频、发音词性等信息，其中，对应的词频可以由数据库的语料经过计算获得。

除了设定词频之外，还可以对所增设的行业词汇设置词频等级，并根据所设置的词频等级，对行业词汇确定指定词频范围内的词频。此步骤通常用于创建用户词典时使用，其中，词频等级可分为高、中、低三个等级。

步骤“根据所设置的词频等级，对行业词汇确定指定词频范围内的词频”的具体过程为：

预先设置两个词频阈值，可以分为高词频阈值和低词频阈值，若对当前行业词汇所设置的词频等级为高，则给该行业词汇随机设置一个超过高词频阈值的词频，以确保在对文本进行分词处理时，该词能够有较高概率被选定；若对当前行业词汇所设置的词频等级为中，则给该行业词汇随机设置一个介于高词频阈值和低词频阈值之间的词频；若对当前行业词汇所设置的词频等级为低，则给该行业词汇随机设置一个低于低词频阈值的词频。

如图5所示，本发明另一方面提供一种行业词典的构建装置，装置包括：

词典创建模块401，用于创建指定领域的行业词典；

词典属性增设模块402，用于在所创建的行业词典中至少增设所述领域内的行业词汇以及对应的词频；

词频等级设置模块403，用于对所增设的行业词汇设置词频等级；

词频确定模块404，用于根据所设置的词频等级，对所述行业词汇确定指定词频范围内的词频。

本实施例中，首先通过词典创建模块401创建指定领域的行业词典，领域包括教育、航空、建筑等等领域。

接着通过词典属性增设模块402在所创建的行业词典中存入该领域内的行业词汇、对应的词频、发音词性等信息，其中，对应的词频可以由数据库的语料经过计算获得。

除了设定词频之外，还可以通过词频等级设置模块403对所增设的行业词汇设置词频等级，并通过词频确定模块404根据所设置的词频等级，对行业词汇确定指定词频范围内的词频。其中，词频等级可分为高、中、低三个等级。

词频确定模块404具体用于：

本发明另一方面提供一种计算机可读存储介质，存储介质包括一组计算机可执行指令，当指令被执行时用于执行上述任一项的分词方法。

在本发明实施例中计算机可读存储介质包括一组计算机可执行指令，当指令被执行时用于，获取文本信息；根据所获取的文本信息中字词所对应的领域，选取若干个对应的行业词典；利用所选取的行业词典，对文本信息进行分词处理，得到分词结果。由此，通过文本中字词的领域选取所对应领域的行业词典，利用所选取的行业词典对文本信息进行分词处理，相比较于现有中使用通用词典来说，能够节省空间资源、减少系统运算量和提升系统性能的效果。

本发明另一方面提供一种计算机可读存储介质，存储介质包括一组计算机可执行指令，当指令被执行时用于执行上述任一项的行业词典的构建方法。

在本发明实施例中计算机可读存储介质包括一组计算机可执行指令，当指令被执行时用于创建指定领域的行业词典；在所创建的行业词典中至少增设领域内的行业词汇以及对应的词频；对所增设的行业词汇设置词频等级；根据所设置的词频等级，对行业词汇确定指定词频范围内的词频。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种分词方法，其特征在于，所述方法包括：

获取文本信息；

根据所获取的文本信息中字词所对应的领域，选取若干个对应的行业词典；

利用所选取的行业词典，对所述文本信息进行分词处理，得到分词结果。

2.根据权利要求1所述的方法，其特征在于，所述利用所选取的行业词典，对所述文本信息进行分词处理，得到分词结果，包括：

对所述文本信息中的文字进行拆分，得到所有的分词组合；

针对每一分词组合，从所述行业词典中查询所述分词组合中每一分词的词频；

将所得到的最优分词组合作为分词结果。

3.根据权利要求2所述的方法，其特征在于，所述根据每一分词组合中所有分词所对应的词频，得到最优分词组合，包括：

4.根据权利要求2或3所述的方法，其特征在于，在选取对应的若干个行业词典之后，所述方法还包括：

合并所选取的行业词典，得到综合词典；

相应的，所述针对每一分词组合，从所述行业词典中查询所述分词组合中每一分词的词频，包括：

针对每一分词组合，从所述综合词典中查询所述分词组合中每一分词的词频。

5.根据权利要求1所述的方法，其特征在于，在根据所获取的文本信息中字词所对应的领域，选取若干个对应的行业词典之后，所述方法还包括：

加载所选取的行业词典至本地端；

利用本地端的行业词典对所述文本信息进行分词处理，得到分词结果。

6.一种行业词典的构建方法，其特征在于，所述方法包括：

创建指定领域的行业词典；

在所创建的行业词典中至少增设所述领域内的行业词汇以及对应的词频；

对所增设的行业词汇设置词频等级；

根据所设置的词频等级，对所述行业词汇确定指定词频范围内的词频。

7.一种分词装置，其特征在于，所述装置包括：

文本获取模块，用于获取文本信息；

行业词典选取模块，用于根据所获取的文本信息中字词所对应的领域，选取若干个对应的行业词典；

文本分词模块，用于利用所选取的行业词典，对所述文本信息进行分词处理，得到分词结果。

8.一种行业词典的构建装置，其特征在于，所述装置包括：

词典创建模块，用于创建指定领域的行业词典；

词典属性增设模块，用于在所创建的行业词典中至少增设所述领域内的行业词汇以及对应的词频；

词频等级设置模块，用于对所增设的行业词汇设置词频等级；

词频确定模块，用于根据所设置的词频等级，对所述行业词汇确定指定词频范围内的词频。

9.一种计算机可读存储介质，其特征在于，所述存储介质包括一组计算机可执行指令，当所述指令被执行时用于执行权利要求1-5任一项所述的一种分词方法。

10.一种计算机可读存储介质，其特征在于，所述存储介质包括一组计算机可执行指令，当所述指令被执行时用于执行权利要求6所述的一种行业词典的构建方法。