CN111079428A - 一种分词和行业词典构建方法、装置以及可读存储介质 - Google Patents
一种分词和行业词典构建方法、装置以及可读存储介质 Download PDFInfo
- Publication number
- CN111079428A CN111079428A CN201911374500.0A CN201911374500A CN111079428A CN 111079428 A CN111079428 A CN 111079428A CN 201911374500 A CN201911374500 A CN 201911374500A CN 111079428 A CN111079428 A CN 111079428A
- Authority
- CN
- China
- Prior art keywords
- industry
- word
- dictionary
- word segmentation
- word frequency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
本发明公开了一种分词和行业词典构建方法、装置以及可读存储介质,包括:获取文本信息;根据所获取的文本信息中字词所对应的领域,选取若干个对应的行业词典;利用所选取的行业词典,对所述文本信息进行分词处理,得到分词结果。通过文本中字词的领域选取所对应领域的行业词典,利用所选取的行业词典对文本信息进行分词处理,相比较于现有中使用通用词典来说,能够节省空间资源、减少系统运算量和提升系统性能的效果。
Description
技术领域
本发明涉及语音合成技术领域,尤其涉及一种分词和行业词典构建方法、装置以及可读存储介质。
背景技术
词典对于TTS的性能至关重要,它影响TTS系统的分词结果进而影响到词的读音等。一般来说,每个领域都有每个领域专属的词汇,比如化学里的各种试剂名称,或者导航里的各种没听过的地名,这些词在我们生活中很少用到,有些甚至不知道怎么读,但在这个行业的人就能一眼分辨,这就是词汇的行业领域相关性。然而现有的TTS系统一般使用一个通用的词典,通用的词典中含有大量的词汇,这将导致TTS系统在使用词典时增加系统的计算量,导致性能下降。
发明内容
本发明实施例提供了一种分词和行业词典构建方法、装置以及可读存储介质,在分词处理时,能够节省空间资源、减少系统运算量和提升系统性能的效果。
本发明一方面提供一种分词方法,所述方法包括:获取文本信息;
根据所获取的文本信息中字词所对应的领域,选取若干个对应的行业词典;利用所选取的行业词典,对所述文本信息进行分词处理,得到分词结果。
在一可实施方式中,所述利用所选取的行业词典,对所述文本信息进行分词处理,得到分词结果,包括:对所述文本信息中的文字进行拆分,得到所有的分词组合;针对每一分词组合,从所述行业词典中查询所述分词组合中每一分词的词频;根据每一分词组合中所有分词所对应的词频,得到最优分词组合;将所得到的最优分词组合作为分词结果。
在一可实施方式中,所述根据每一分词组合中所有分词所对应的词频,得到最优分词组合,包括:将每一分词组合中的所有对应于分词的词频相加,分别计算得到综合词频;从所有分词组合中选取综合词频最大的分词组合作为最优分词组合。
在一可实施方式中,在选取对应的若干个行业词典之后,所述方法还包括:合并所选取的行业词典,得到综合词典;相应的,所述针对每一分词组合,从所述行业词典中查询所述分词组合中每一分词的词频,包括:针对每一分词组合,从所述综合词典中查询所述分词组合中每一分词的词频。
在一可实施方式中,在根据所获取的文本信息中字词所对应的领域,选取若干个对应的行业词典之后,所述方法还包括:加载所选取的行业词典至本地端;利用本地端的行业词典对所述文本信息进行分词处理,得到分词结果。
本发明另一方面提供一种行业词典的构建方法,所述方法包括:创建指定领域的行业词典;在所创建的行业词典中至少增设所述领域内的行业词汇以及对应的词频;对所增设的行业词汇设置词频等级;根据所设置的词频等级,对所述行业词汇确定指定词频范围内的词频。
本发明另一方面提供一种分词装置,所述装置包括:文本获取模块,用于获取文本信息;行业词典选取模块,用于根据所获取的文本信息中字词所对应的领域,选取若干个对应的行业词典;文本分词模块,用于利用所选取的行业词典,对所述文本信息进行分词处理,得到分词结果。
本发明另一方面提供一种行业词典的构建装置,所述装置包括:词典创建模块,用于创建指定领域的行业词典;词典属性增设模块,用于在所创建的行业词典中至少增设所述领域内的行业词汇以及对应的词频;词频等级设置模块,用于对所增设的行业词汇设置词频等级;词频确定模块,用于根据所设置的词频等级,对所述行业词汇确定指定词频范围内的词频。
本发明另一方面提供一种计算机可读存储介质,所述存储介质包括一组计算机可执行指令,当所述指令被执行时用于执行一种分词方法。
本发明另一方面提供一种计算机可读存储介质,所述存储介质包括一组计算机可执行指令,当所述指令被执行时用于执行行业词典的构建方法。
在本发明实施例中,通过文本中字词的领域选取所对应领域的行业词典,利用所选取的行业词典对文本信息进行分词处理,相比较于现有中使用通用词典来说,能够节省空间资源、减少系统运算量和提升系统性能的效果。
附图说明
通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,其中:
在附图中,相同或对应的标号表示相同或对应的部分。
图1为本发明实施例一种分词方法的实现流程示意图;
图2为本发明实施例一种分词方法的具体实现流程示意图;
图3为本发明实施例一种分词装置的结构组成示意图;
图4为本发明实施例一种行业词典的构建方法的实现流程示意图;
图5为本发明实施例一种行业词典的构建装置的结构组成示意图。
具体实施方式
为使本发明的目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而非全部实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例一种分词方法的实现流程示意图。
如图1所示,本发明一方面提供一种分词方法,方法包括:
步骤101,获取文本信息;
步骤102,根据所获取的文本信息中字词所对应的领域,选取若干个对应的行业词典;
步骤103,利用所选取的行业词典,对文本信息进行分词处理,得到分词结果。
本实施例中,首先获取文本信息,其中,获取方式可以从线上获取,也可以在线下撰写获取。
接着用户可以根据文本信息中的字词信息,并判断该字词信息所对应的领域,也可以通过神经网络模型提取文本信息中的字词并识别该字词所对应的领域。其中,神经网络模型需要事先利用大量语料对该识别方法进行预训练,训练方法由于是现有技术,在本实施例中不再详细阐述。
然后根据文字所对应的领域,选取一个或者多个对应的行业词典,选取的方式可以在交互界面上进行。其中,行业词典为针对某个领域的词典,比如“导航”,“教育”,“医疗”等等,在每个行业词典中均包括该领域的词汇、词频、词频等级和发音词性等信息。
接着利用所选取的行业词典,对文本信息进行分词处理,得到分词结果。
由此,通过文本中字词的领域选取所对应领域的行业词典,利用所选取的行业词典对文本信息进行分词处理,相比较于现有中使用通用词典来说,能够节省空间资源、减少系统运算量和提升系统性能的效果。
在一可实施方式中,利用所选取的行业词典,对文本信息进行分词处理,得到分词结果,包括:
对文本信息中的文字进行拆分,得到所有的分词组合;
针对每一分词组合,从行业词典中查询分词组合中每一分词的词频;
根据每一分词组合中所有分词所对应的词频,得到最优分词组合;
将所得到的最优分词组合作为分词结果。
本实施例中,步骤103的具体过程为:
对文本信息中的文字进行拆分,得到所有的分词组合;例如:文本信息为“中华人民共和国”,利用穷举法遍历该文本信息的所有可能的组合,比如“中”,“华”,“人民”,“共和国”是其中一组,“中”,“华人”,“民”,“共和国”是其中的另外一组,等等。
接着遍历所有分词组合,从行业词典中查询每一分词组合内的所有分词,并获取所有分词所对应的词频。
接着根据每一分词组合中所有分词所对应的词频,得到最优分词组合。
最后将所得到的最优分词组合作为分词结果。
在一可实施方式中,根据每一分词组合中所有分词所对应的词频,得到最优分词组,包括:
将每一分词组合中的所有对应于分词的词频相加,分别计算得到综合词频;
从所有分词组合中选取综合词频最大的分词组合作为最优分词组合。
本实施例中,上述步骤“根据每一分词组合中所有分词所对应的词频,得到最优分词组合”的具体过程为:
将每一分词组合中所有分词所对应的词频算术相加,得到对应的综合词频。
接着在所有分词组合中选取综合词频最大的分词组合,并将该分词组合作为最优分词组合。
在一可实施方式中,在选取对应的若干个行业词典之后,方法还包括:
合并所选取的行业词典,得到综合词典;
相应的,针对每一分词组合,从行业词典中查询分词组合中每一分词的词频,包括:
针对每一分词组合,从综合词典中查询分词组合中每一分词的词频。
本实施例中,在选取对应的行业词典之后,将所选取的行业词典中的所有分词信息以及相关属性进行合并,得到综合词典,相应的,在综合词典中查询分词组合中每一分词的词频。
在一可实施方式中,在根据所获取的文本信息中字词所对应的领域,选取若干个对应的行业词典之后,方法还包括:
加载所选取的行业词典至本地端;
利用本地端的行业词典对文本信息进行分词处理,得到分词结果。
本实施例中,行业词典为公共资源,在服务器的数据库中或者在云端服务器中,可能在同一时间段内有多个用户访问,为了防止该公共资源不被同一用户所占用,因此用户在通过交互界面选取若干个对应的行业词典之后,可由已设定程序的交互界面调用TTS(text to speech语音合成)系统的词典加载接口来加载用户所选择的行业词典加载到本地端,具体是加载到TTS系统中。再利用本地端的行业词典对文本信息进行分词处理,得到分词结果。
图2为本发明实施例一种分词方法的具体实现流程示意图。
分词方法的整体步骤如图2所示,
首先用户可通过交互界面选取若干个行业词典;
接着将用户所选取的若干个行业词典合并成综合词典;
将综合词典加载到TTS系统中,对文本进行分词处理。
多个用户可同时操作此方法,且互不影响。
图3为本发明实施例一种分词装置的结构组成示意图。
如图3所示,本发明另一方面提供一种分词装置,装置包括:
文本获取模块201,用于获取文本信息;
行业词典选取模块202,用于根据所获取的文本信息中字词所对应的领域,选取若干个对应的行业词典;
文本分词模块203,用于利用所选取的行业词典,对文本信息进行分词处理,得到分词结果。
本实施例中,首先通过文本获取模块201获取文本信息,其中,获取方式可以从线上获取,也可以在线下撰写获取。
接着通过行业词典选取模块202根据文本信息中的字词信息,并判断该字词信息所对应的领域,也可以通过神经网络模型提取文本信息中的字词并识别该字词所对应的领域。其中,神经网络模型需要事先利用大量语料对该识别方法进行预训练,训练方法由于是现有技术,在本实施例中不再详细阐述。
然后根据文字所对应的领域,选取一个或者多个对应的行业词典,选取的方式可以在交互界面上进行。其中,行业词典为针对某个领域的词典,比如“导航”,“教育”,“医疗”等等,在每个行业词典中均包括该领域的词汇、词频、词频等级和发音词性等信息。
接着文本分词模块203利用所选取的行业词典,对文本信息进行分词处理,得到分词结果。
由此,通过文本中字词的领域选取所对应领域的行业词典,利用所选取的行业词典对文本信息进行分词处理,相比较于现有中使用通用词典来说,能够节省空间资源、减少系统运算量和提升系统性能的效果。
图4为本发明实施例一种行业词典的构建方法的实现流程示意图。
如图4所示,本发明另一方面提供一种行业词典的构建方法,方法包括:
步骤301,创建指定领域的行业词典;
步骤302,在所创建的行业词典中至少增设所述领域内的行业词汇以及对应的词频;
步骤303,对所增设的行业词汇设置词频等级;
步骤304,根据所设置的词频等级,对行业词汇确定指定词频范围内的词频。
本实施例中,首先创建指定领域的行业词典,领域包括教育、航空、建筑等等领域,也可以创建属于用户自己的用户词典,用户可以在用户词典中增设常用的词汇。
接着在所创建的行业词典中存入该领域内的行业词汇、对应的词频、发音词性等信息,其中,对应的词频可以由数据库的语料经过计算获得。
除了设定词频之外,还可以对所增设的行业词汇设置词频等级,并根据所设置的词频等级,对行业词汇确定指定词频范围内的词频。此步骤通常用于创建用户词典时使用,其中,词频等级可分为高、中、低三个等级。
步骤“根据所设置的词频等级,对行业词汇确定指定词频范围内的词频”的具体过程为:
预先设置两个词频阈值,可以分为高词频阈值和低词频阈值,若对当前行业词汇所设置的词频等级为高,则给该行业词汇随机设置一个超过高词频阈值的词频,以确保在对文本进行分词处理时,该词能够有较高概率被选定;若对当前行业词汇所设置的词频等级为中,则给该行业词汇随机设置一个介于高词频阈值和低词频阈值之间的词频;若对当前行业词汇所设置的词频等级为低,则给该行业词汇随机设置一个低于低词频阈值的词频。
图5为本发明实施例一种行业词典的构建装置的结构组成示意图。
如图5所示,本发明另一方面提供一种行业词典的构建装置,装置包括:
词典创建模块401,用于创建指定领域的行业词典;
词典属性增设模块402,用于在所创建的行业词典中至少增设所述领域内的行业词汇以及对应的词频;
词频等级设置模块403,用于对所增设的行业词汇设置词频等级;
词频确定模块404,用于根据所设置的词频等级,对所述行业词汇确定指定词频范围内的词频。
本实施例中,首先通过词典创建模块401创建指定领域的行业词典,领域包括教育、航空、建筑等等领域。
接着通过词典属性增设模块402在所创建的行业词典中存入该领域内的行业词汇、对应的词频、发音词性等信息,其中,对应的词频可以由数据库的语料经过计算获得。
除了设定词频之外,还可以通过词频等级设置模块403对所增设的行业词汇设置词频等级,并通过词频确定模块404根据所设置的词频等级,对行业词汇确定指定词频范围内的词频。其中,词频等级可分为高、中、低三个等级。
词频确定模块404具体用于:
预先设置两个词频阈值,可以分为高词频阈值和低词频阈值,若对当前行业词汇所设置的词频等级为高,则给该行业词汇随机设置一个超过高词频阈值的词频,以确保在对文本进行分词处理时,该词能够有较高概率被选定;若对当前行业词汇所设置的词频等级为中,则给该行业词汇随机设置一个介于高词频阈值和低词频阈值之间的词频;若对当前行业词汇所设置的词频等级为低,则给该行业词汇随机设置一个低于低词频阈值的词频。
本发明另一方面提供一种计算机可读存储介质,存储介质包括一组计算机可执行指令,当指令被执行时用于执行上述任一项的分词方法。
在本发明实施例中计算机可读存储介质包括一组计算机可执行指令,当指令被执行时用于,获取文本信息;根据所获取的文本信息中字词所对应的领域,选取若干个对应的行业词典;利用所选取的行业词典,对文本信息进行分词处理,得到分词结果。由此,通过文本中字词的领域选取所对应领域的行业词典,利用所选取的行业词典对文本信息进行分词处理,相比较于现有中使用通用词典来说,能够节省空间资源、减少系统运算量和提升系统性能的效果。
本发明另一方面提供一种计算机可读存储介质,存储介质包括一组计算机可执行指令,当指令被执行时用于执行上述任一项的行业词典的构建方法。
在本发明实施例中计算机可读存储介质包括一组计算机可执行指令,当指令被执行时用于创建指定领域的行业词典;在所创建的行业词典中至少增设领域内的行业词汇以及对应的词频;对所增设的行业词汇设置词频等级;根据所设置的词频等级,对行业词汇确定指定词频范围内的词频。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种分词方法,其特征在于,所述方法包括:
获取文本信息;
根据所获取的文本信息中字词所对应的领域,选取若干个对应的行业词典;
利用所选取的行业词典,对所述文本信息进行分词处理,得到分词结果。
2.根据权利要求1所述的方法,其特征在于,所述利用所选取的行业词典,对所述文本信息进行分词处理,得到分词结果,包括:
对所述文本信息中的文字进行拆分,得到所有的分词组合;
针对每一分词组合,从所述行业词典中查询所述分词组合中每一分词的词频;
根据每一分词组合中所有分词所对应的词频,得到最优分词组合;
将所得到的最优分词组合作为分词结果。
3.根据权利要求2所述的方法,其特征在于,所述根据每一分词组合中所有分词所对应的词频,得到最优分词组合,包括:
将每一分词组合中的所有对应于分词的词频相加,分别计算得到综合词频;
从所有分词组合中选取综合词频最大的分词组合作为最优分词组合。
4.根据权利要求2或3所述的方法,其特征在于,在选取对应的若干个行业词典之后,所述方法还包括:
合并所选取的行业词典,得到综合词典;
相应的,所述针对每一分词组合,从所述行业词典中查询所述分词组合中每一分词的词频,包括:
针对每一分词组合,从所述综合词典中查询所述分词组合中每一分词的词频。
5.根据权利要求1所述的方法,其特征在于,在根据所获取的文本信息中字词所对应的领域,选取若干个对应的行业词典之后,所述方法还包括:
加载所选取的行业词典至本地端;
利用本地端的行业词典对所述文本信息进行分词处理,得到分词结果。
6.一种行业词典的构建方法,其特征在于,所述方法包括:
创建指定领域的行业词典;
在所创建的行业词典中至少增设所述领域内的行业词汇以及对应的词频;
对所增设的行业词汇设置词频等级;
根据所设置的词频等级,对所述行业词汇确定指定词频范围内的词频。
7.一种分词装置,其特征在于,所述装置包括:
文本获取模块,用于获取文本信息;
行业词典选取模块,用于根据所获取的文本信息中字词所对应的领域,选取若干个对应的行业词典;
文本分词模块,用于利用所选取的行业词典,对所述文本信息进行分词处理,得到分词结果。
8.一种行业词典的构建装置,其特征在于,所述装置包括:
词典创建模块,用于创建指定领域的行业词典;
词典属性增设模块,用于在所创建的行业词典中至少增设所述领域内的行业词汇以及对应的词频;
词频等级设置模块,用于对所增设的行业词汇设置词频等级;
词频确定模块,用于根据所设置的词频等级,对所述行业词汇确定指定词频范围内的词频。
9.一种计算机可读存储介质,其特征在于,所述存储介质包括一组计算机可执行指令,当所述指令被执行时用于执行权利要求1-5任一项所述的一种分词方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质包括一组计算机可执行指令,当所述指令被执行时用于执行权利要求6所述的一种行业词典的构建方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911374500.0A CN111079428B (zh) | 2019-12-27 | 2019-12-27 | 一种分词和行业词典构建方法、装置以及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911374500.0A CN111079428B (zh) | 2019-12-27 | 2019-12-27 | 一种分词和行业词典构建方法、装置以及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111079428A true CN111079428A (zh) | 2020-04-28 |
CN111079428B CN111079428B (zh) | 2023-09-19 |
Family
ID=70318905
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911374500.0A Active CN111079428B (zh) | 2019-12-27 | 2019-12-27 | 一种分词和行业词典构建方法、装置以及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111079428B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112199952A (zh) * | 2020-12-04 | 2021-01-08 | 支付宝(杭州)信息技术有限公司 | 一种分词方法、多模式分词模型和系统 |
CN112784570A (zh) * | 2021-02-23 | 2021-05-11 | 南方电网调峰调频发电有限公司信息通信分公司 | 用于文本相似度计算的分词方法、装置、设备和介质 |
CN113435426A (zh) * | 2021-08-27 | 2021-09-24 | 珠海亿智电子科技有限公司 | 用于ocr识别的数据增广方法、装置、设备及存储介质 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060242191A1 (en) * | 2003-12-26 | 2006-10-26 | Hiroshi Kutsumi | Dictionary creation device and dictionary creation method |
WO2007143914A1 (fr) * | 2006-06-02 | 2007-12-21 | Beijing Sogou Technology Development Co., Ltd. | Procédé, dispositif et système de saisie pour la création d'une base de données de fréquence de mots basée sur des informations issues du web |
CN102169495A (zh) * | 2011-04-11 | 2011-08-31 | 趣拿开曼群岛有限公司 | 行业词典生成方法及装置 |
CN104008126A (zh) * | 2014-03-31 | 2014-08-27 | 北京奇虎科技有限公司 | 一种基于网页内容分类进行分词处理的方法和装置 |
CN105096933A (zh) * | 2015-05-29 | 2015-11-25 | 百度在线网络技术(北京)有限公司 | 分词词典的生成方法和装置及语音合成方法和装置 |
CN105340004A (zh) * | 2013-06-28 | 2016-02-17 | 谷歌公司 | 用于发音学习的计算机实现的方法、计算机可读介质和系统 |
US20180267954A1 (en) * | 2017-03-17 | 2018-09-20 | International Business Machines Corporation | Cognitive lexicon learning and predictive text replacement |
CN108615124A (zh) * | 2018-05-11 | 2018-10-02 | 北京窝头网络科技有限公司 | 基于词频分析的企业评价方法及系统 |
CN109522417A (zh) * | 2018-10-26 | 2019-03-26 | 浪潮软件股份有限公司 | 一种公司名的商号抽取方法 |
CN109902304A (zh) * | 2019-03-04 | 2019-06-18 | 拉扎斯网络科技(上海)有限公司 | 信息处理方法、装置、存储介质和电子设备 |
CN109918665A (zh) * | 2019-03-05 | 2019-06-21 | 湖北亿咖通科技有限公司 | 文本的分词方法、装置和电子设备 |
CN110209837A (zh) * | 2019-05-27 | 2019-09-06 | 广西电网有限责任公司 | 一种装置信息词典的生成方法及计算装置 |
CN110413998A (zh) * | 2019-07-16 | 2019-11-05 | 深圳供电局有限公司 | 一种面向电力行业的自适应中文分词方法及其系统、介质 |
-
2019
- 2019-12-27 CN CN201911374500.0A patent/CN111079428B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060242191A1 (en) * | 2003-12-26 | 2006-10-26 | Hiroshi Kutsumi | Dictionary creation device and dictionary creation method |
WO2007143914A1 (fr) * | 2006-06-02 | 2007-12-21 | Beijing Sogou Technology Development Co., Ltd. | Procédé, dispositif et système de saisie pour la création d'une base de données de fréquence de mots basée sur des informations issues du web |
CN102169495A (zh) * | 2011-04-11 | 2011-08-31 | 趣拿开曼群岛有限公司 | 行业词典生成方法及装置 |
CN105340004A (zh) * | 2013-06-28 | 2016-02-17 | 谷歌公司 | 用于发音学习的计算机实现的方法、计算机可读介质和系统 |
CN104008126A (zh) * | 2014-03-31 | 2014-08-27 | 北京奇虎科技有限公司 | 一种基于网页内容分类进行分词处理的方法和装置 |
CN105096933A (zh) * | 2015-05-29 | 2015-11-25 | 百度在线网络技术(北京)有限公司 | 分词词典的生成方法和装置及语音合成方法和装置 |
US20180267954A1 (en) * | 2017-03-17 | 2018-09-20 | International Business Machines Corporation | Cognitive lexicon learning and predictive text replacement |
CN108615124A (zh) * | 2018-05-11 | 2018-10-02 | 北京窝头网络科技有限公司 | 基于词频分析的企业评价方法及系统 |
CN109522417A (zh) * | 2018-10-26 | 2019-03-26 | 浪潮软件股份有限公司 | 一种公司名的商号抽取方法 |
CN109902304A (zh) * | 2019-03-04 | 2019-06-18 | 拉扎斯网络科技(上海)有限公司 | 信息处理方法、装置、存储介质和电子设备 |
CN109918665A (zh) * | 2019-03-05 | 2019-06-21 | 湖北亿咖通科技有限公司 | 文本的分词方法、装置和电子设备 |
CN110209837A (zh) * | 2019-05-27 | 2019-09-06 | 广西电网有限责任公司 | 一种装置信息词典的生成方法及计算装置 |
CN110413998A (zh) * | 2019-07-16 | 2019-11-05 | 深圳供电局有限公司 | 一种面向电力行业的自适应中文分词方法及其系统、介质 |
Non-Patent Citations (6)
Title |
---|
QINJUN QIU; ZHONG XIE; LIANG WU; WENJIA LI;: "DGeoSegmenter: A dictionary-based Chinese word segmenter for the geoscience domain", 《COMPUTERS & GEOSCIENCES》, vol. 121 * |
孙霞,郑庆华,王朝静,张素娟: "一种基于生语料的领域词典生成方法", vol. 50, no. 06 * |
杨立月;王移芝: "微博情感分析的情感词典构造及分析方法研究", vol. 29, no. 2 * |
王丽英; 王东海;: "基于术语教育的术语学习词典研究", 《中国科技术语》, vol. 11, no. 6 * |
麻孟越;张琨;严霞;景鸿斐: "基于标签传播的评教文本情感词典构建", vol. 50, no. 3 * |
黄玉兰;龚才春;许洪波;程学旗;: "基于伪相关反馈模型的领域词典生成算法", 《中文信息学报》, vol. 22, no. 01 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112199952A (zh) * | 2020-12-04 | 2021-01-08 | 支付宝(杭州)信息技术有限公司 | 一种分词方法、多模式分词模型和系统 |
CN112199952B (zh) * | 2020-12-04 | 2021-03-23 | 支付宝(杭州)信息技术有限公司 | 一种分词方法、多模式分词模型和系统 |
CN112784570A (zh) * | 2021-02-23 | 2021-05-11 | 南方电网调峰调频发电有限公司信息通信分公司 | 用于文本相似度计算的分词方法、装置、设备和介质 |
CN113435426A (zh) * | 2021-08-27 | 2021-09-24 | 珠海亿智电子科技有限公司 | 用于ocr识别的数据增广方法、装置、设备及存储介质 |
CN113435426B (zh) * | 2021-08-27 | 2021-11-16 | 珠海亿智电子科技有限公司 | 用于ocr识别的数据增广方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111079428B (zh) | 2023-09-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106776544B (zh) | 人物关系识别方法及装置和分词方法 | |
CN111079428A (zh) | 一种分词和行业词典构建方法、装置以及可读存储介质 | |
CN107168546B (zh) | 输入提示方法及装置 | |
CN109243468B (zh) | 语音识别方法、装置、电子设备及存储介质 | |
JP2004355003A (ja) | 名前付きエンティティ認識を機能強化するユーザモデル化のシステムおよび方法。 | |
CN105608113B (zh) | 判断文本中poi数据的方法及装置 | |
CN106326233B (zh) | 地址提示方法及装置 | |
CN111488468A (zh) | 地理信息知识点抽取方法、装置、存储介质及计算机设备 | |
CN112560450A (zh) | 一种文本纠错方法及装置 | |
CN116186200A (zh) | 模型训练方法、装置、电子设备和存储介质 | |
CN114666618B (zh) | 音频审核方法、装置、设备及可读存储介质 | |
CN111625636A (zh) | 一种人机对话的拒绝识别方法、装置、设备、介质 | |
CN111179904A (zh) | 混合文语转换方法及装置、终端和计算机可读存储介质 | |
CN108597503B (zh) | 测试语料生成方法、装置、设备及可读写存储介质 | |
CN117556061B (zh) | 文本输出方法及装置、电子设备和存储介质 | |
CN111831685A (zh) | 一种查询语句的处理方法、训练模型的方法、装置及设备 | |
CN108595141A (zh) | 语音输入方法及装置、计算机装置和计算机可读存储介质 | |
CN116644159A (zh) | 关键词提取方法、装置、设备及计算机可读存储介质 | |
US10067933B2 (en) | Geospatial origin and identity based on dialect detection for text based media | |
CN109299453B (zh) | 一种用于构建词典的方法、装置及计算机可读存储介质 | |
CN116304014A (zh) | 训练实体类型识别模型的方法、实体类型识别方法及装置 | |
CN112259092B (zh) | 一种语音播报方法、装置及语音交互设备 | |
CN112071304B (zh) | 一种语意分析方法及装置 | |
CN113468306A (zh) | 语音对话方法、装置、电子设备及存储介质 | |
CN109947779B (zh) | 用户输入词汇的存储方法、装置及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20230815 Address after: Room 101, floor 1, building 1, courtyard 42, gaoliangqiaoxie street, Haidian District, Beijing Applicant after: Beijing Yufanzhi Information Technology Co.,Ltd. Address before: 100044 1001, 10th floor, office building a, 19 Zhongguancun Street, Haidian District, Beijing Applicant before: MOBVOI INFORMATION TECHNOLOGY Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |