CN111079428B - 一种分词和行业词典构建方法、装置以及可读存储介质 - Google Patents

一种分词和行业词典构建方法、装置以及可读存储介质 Download PDF

Info

Publication number
CN111079428B
CN111079428B CN201911374500.0A CN201911374500A CN111079428B CN 111079428 B CN111079428 B CN 111079428B CN 201911374500 A CN201911374500 A CN 201911374500A CN 111079428 B CN111079428 B CN 111079428B
Authority
CN
China
Prior art keywords
word
word frequency
industry
dictionary
vocabulary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911374500.0A
Other languages
English (en)
Other versions
CN111079428A (zh
Inventor
张征
冯小琴
雷欣
李志飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Yufanzhi Information Technology Co ltd
Original Assignee
Beijing Yufanzhi Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Yufanzhi Information Technology Co ltd filed Critical Beijing Yufanzhi Information Technology Co ltd
Priority to CN201911374500.0A priority Critical patent/CN111079428B/zh
Publication of CN111079428A publication Critical patent/CN111079428A/zh
Application granted granted Critical
Publication of CN111079428B publication Critical patent/CN111079428B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种分词和行业词典构建方法、装置以及可读存储介质,包括:获取文本信息;根据所获取的文本信息中字词所对应的领域,选取若干个对应的行业词典;利用所选取的行业词典,对所述文本信息进行分词处理,得到分词结果。通过文本中字词的领域选取所对应领域的行业词典,利用所选取的行业词典对文本信息进行分词处理,相比较于现有中使用通用词典来说,能够节省空间资源、减少系统运算量和提升系统性能的效果。

Description

一种分词和行业词典构建方法、装置以及可读存储介质
技术领域
本发明涉及语音合成技术领域,尤其涉及一种分词和行业词典构建方法、装置以及可读存储介质。
背景技术
词典对于TTS的性能至关重要,它影响TTS系统的分词结果进而影响到词的读音等。一般来说,每个领域都有每个领域专属的词汇,比如化学里的各种试剂名称,或者导航里的各种没听过的地名,这些词在我们生活中很少用到,有些甚至不知道怎么读,但在这个行业的人就能一眼分辨,这就是词汇的行业领域相关性。然而现有的TTS系统一般使用一个通用的词典,通用的词典中含有大量的词汇,这将导致TTS系统在使用词典时增加系统的计算量,导致性能下降。
发明内容
本发明实施例提供了一种分词和行业词典构建方法、装置以及可读存储介质,在分词处理时,能够节省空间资源、减少系统运算量和提升系统性能的效果。
本发明一方面提供一种分词方法,所述方法包括:获取文本信息;
根据所获取的文本信息中字词所对应的领域,选取若干个对应的行业词典;利用所选取的行业词典,对所述文本信息进行分词处理,得到分词结果。
在一可实施方式中,所述利用所选取的行业词典,对所述文本信息进行分词处理,得到分词结果,包括:对所述文本信息中的文字进行拆分,得到所有的分词组合;针对每一分词组合,从所述行业词典中查询所述分词组合中每一分词的词频;根据每一分词组合中所有分词所对应的词频,得到最优分词组合;将所得到的最优分词组合作为分词结果。
在一可实施方式中,所述根据每一分词组合中所有分词所对应的词频,得到最优分词组合,包括:将每一分词组合中的所有对应于分词的词频相加,分别计算得到综合词频;从所有分词组合中选取综合词频最大的分词组合作为最优分词组合。
在一可实施方式中,在选取对应的若干个行业词典之后,所述方法还包括:合并所选取的行业词典,得到综合词典;相应的,所述针对每一分词组合,从所述行业词典中查询所述分词组合中每一分词的词频,包括:针对每一分词组合,从所述综合词典中查询所述分词组合中每一分词的词频。
在一可实施方式中,在根据所获取的文本信息中字词所对应的领域,选取若干个对应的行业词典之后,所述方法还包括:加载所选取的行业词典至本地端;利用本地端的行业词典对所述文本信息进行分词处理,得到分词结果。
本发明另一方面提供一种行业词典的构建方法,所述方法包括:创建指定领域的行业词典;在所创建的行业词典中至少增设所述领域内的行业词汇以及对应的词频;对所增设的行业词汇设置词频等级;根据所设置的词频等级,对所述行业词汇确定指定词频范围内的词频。
本发明另一方面提供一种分词装置,所述装置包括:文本获取模块,用于获取文本信息;行业词典选取模块,用于根据所获取的文本信息中字词所对应的领域,选取若干个对应的行业词典;文本分词模块,用于利用所选取的行业词典,对所述文本信息进行分词处理,得到分词结果。
本发明另一方面提供一种行业词典的构建装置,所述装置包括:词典创建模块,用于创建指定领域的行业词典;词典属性增设模块,用于在所创建的行业词典中至少增设所述领域内的行业词汇以及对应的词频;词频等级设置模块,用于对所增设的行业词汇设置词频等级;词频确定模块,用于根据所设置的词频等级,对所述行业词汇确定指定词频范围内的词频。
本发明另一方面提供一种计算机可读存储介质,所述存储介质包括一组计算机可执行指令,当所述指令被执行时用于执行一种分词方法。
本发明另一方面提供一种计算机可读存储介质,所述存储介质包括一组计算机可执行指令,当所述指令被执行时用于执行行业词典的构建方法。
在本发明实施例中,通过文本中字词的领域选取所对应领域的行业词典,利用所选取的行业词典对文本信息进行分词处理,相比较于现有中使用通用词典来说,能够节省空间资源、减少系统运算量和提升系统性能的效果。
附图说明
通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,其中:
在附图中,相同或对应的标号表示相同或对应的部分。
图1为本发明实施例一种分词方法的实现流程示意图;
图2为本发明实施例一种分词方法的具体实现流程示意图;
图3为本发明实施例一种分词装置的结构组成示意图;
图4为本发明实施例一种行业词典的构建方法的实现流程示意图;
图5为本发明实施例一种行业词典的构建装置的结构组成示意图。
具体实施方式
为使本发明的目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而非全部实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例一种分词方法的实现流程示意图。
如图1所示,本发明一方面提供一种分词方法,方法包括:
步骤101,获取文本信息;
步骤102,根据所获取的文本信息中字词所对应的领域,选取若干个对应的行业词典;
步骤103,利用所选取的行业词典,对文本信息进行分词处理,得到分词结果。
本实施例中,首先获取文本信息,其中,获取方式可以从线上获取,也可以在线下撰写获取。
接着用户可以根据文本信息中的字词信息,并判断该字词信息所对应的领域,也可以通过神经网络模型提取文本信息中的字词并识别该字词所对应的领域。其中,神经网络模型需要事先利用大量语料对该识别方法进行预训练,训练方法由于是现有技术,在本实施例中不再详细阐述。
然后根据文字所对应的领域,选取一个或者多个对应的行业词典,选取的方式可以在交互界面上进行。其中,行业词典为针对某个领域的词典,比如“导航”,“教育”,“医疗”等等,在每个行业词典中均包括该领域的词汇、词频、词频等级和发音词性等信息。
接着利用所选取的行业词典,对文本信息进行分词处理,得到分词结果。
由此,通过文本中字词的领域选取所对应领域的行业词典,利用所选取的行业词典对文本信息进行分词处理,相比较于现有中使用通用词典来说,能够节省空间资源、减少系统运算量和提升系统性能的效果。
在一可实施方式中,利用所选取的行业词典,对文本信息进行分词处理,得到分词结果,包括:
对文本信息中的文字进行拆分,得到所有的分词组合;
针对每一分词组合,从行业词典中查询分词组合中每一分词的词频;
根据每一分词组合中所有分词所对应的词频,得到最优分词组合;
将所得到的最优分词组合作为分词结果。
本实施例中,步骤103的具体过程为:
对文本信息中的文字进行拆分,得到所有的分词组合;例如:文本信息为“中华人民共和国”,利用穷举法遍历该文本信息的所有可能的组合,比如“中”,“华”,“人民”,“共和国”是其中一组,“中”,“华人”,“民”,“共和国”是其中的另外一组,等等。
接着遍历所有分词组合,从行业词典中查询每一分词组合内的所有分词,并获取所有分词所对应的词频。
接着根据每一分词组合中所有分词所对应的词频,得到最优分词组合。
最后将所得到的最优分词组合作为分词结果。
在一可实施方式中,根据每一分词组合中所有分词所对应的词频,得到最优分词组,包括:
将每一分词组合中的所有对应于分词的词频相加,分别计算得到综合词频;
从所有分词组合中选取综合词频最大的分词组合作为最优分词组合。
本实施例中,上述步骤“根据每一分词组合中所有分词所对应的词频,得到最优分词组合”的具体过程为:
将每一分词组合中所有分词所对应的词频算术相加,得到对应的综合词频。
接着在所有分词组合中选取综合词频最大的分词组合,并将该分词组合作为最优分词组合。
在一可实施方式中,在选取对应的若干个行业词典之后,方法还包括:
合并所选取的行业词典,得到综合词典;
相应的,针对每一分词组合,从行业词典中查询分词组合中每一分词的词频,包括:
针对每一分词组合,从综合词典中查询分词组合中每一分词的词频。
本实施例中,在选取对应的行业词典之后,将所选取的行业词典中的所有分词信息以及相关属性进行合并,得到综合词典,相应的,在综合词典中查询分词组合中每一分词的词频。
在一可实施方式中,在根据所获取的文本信息中字词所对应的领域,选取若干个对应的行业词典之后,方法还包括:
加载所选取的行业词典至本地端;
利用本地端的行业词典对文本信息进行分词处理,得到分词结果。
本实施例中,行业词典为公共资源,在服务器的数据库中或者在云端服务器中,可能在同一时间段内有多个用户访问,为了防止该公共资源不被同一用户所占用,因此用户在通过交互界面选取若干个对应的行业词典之后,可由已设定程序的交互界面调用TTS(text to speech语音合成)系统的词典加载接口来加载用户所选择的行业词典加载到本地端,具体是加载到TTS系统中。再利用本地端的行业词典对文本信息进行分词处理,得到分词结果。
图2为本发明实施例一种分词方法的具体实现流程示意图。
分词方法的整体步骤如图2所示,
首先用户可通过交互界面选取若干个行业词典;
接着将用户所选取的若干个行业词典合并成综合词典;
将综合词典加载到TTS系统中,对文本进行分词处理。
多个用户可同时操作此方法,且互不影响。
图3为本发明实施例一种分词装置的结构组成示意图。
如图3所示,本发明另一方面提供一种分词装置,装置包括:
文本获取模块201,用于获取文本信息;
行业词典选取模块202,用于根据所获取的文本信息中字词所对应的领域,选取若干个对应的行业词典;
文本分词模块203,用于利用所选取的行业词典,对文本信息进行分词处理,得到分词结果。
本实施例中,首先通过文本获取模块201获取文本信息,其中,获取方式可以从线上获取,也可以在线下撰写获取。
接着通过行业词典选取模块202根据文本信息中的字词信息,并判断该字词信息所对应的领域,也可以通过神经网络模型提取文本信息中的字词并识别该字词所对应的领域。其中,神经网络模型需要事先利用大量语料对该识别方法进行预训练,训练方法由于是现有技术,在本实施例中不再详细阐述。
然后根据文字所对应的领域,选取一个或者多个对应的行业词典,选取的方式可以在交互界面上进行。其中,行业词典为针对某个领域的词典,比如“导航”,“教育”,“医疗”等等,在每个行业词典中均包括该领域的词汇、词频、词频等级和发音词性等信息。
接着文本分词模块203利用所选取的行业词典,对文本信息进行分词处理,得到分词结果。
由此,通过文本中字词的领域选取所对应领域的行业词典,利用所选取的行业词典对文本信息进行分词处理,相比较于现有中使用通用词典来说,能够节省空间资源、减少系统运算量和提升系统性能的效果。
图4为本发明实施例一种行业词典的构建方法的实现流程示意图。
如图4所示,本发明另一方面提供一种行业词典的构建方法,方法包括:
步骤301,创建指定领域的行业词典;
步骤302,在所创建的行业词典中至少增设所述领域内的行业词汇以及对应的词频;
步骤303,对所增设的行业词汇设置词频等级;
步骤304,根据所设置的词频等级,对行业词汇确定指定词频范围内的词频。
本实施例中,首先创建指定领域的行业词典,领域包括教育、航空、建筑等等领域,也可以创建属于用户自己的用户词典,用户可以在用户词典中增设常用的词汇。
接着在所创建的行业词典中存入该领域内的行业词汇、对应的词频、发音词性等信息,其中,对应的词频可以由数据库的语料经过计算获得。
除了设定词频之外,还可以对所增设的行业词汇设置词频等级,并根据所设置的词频等级,对行业词汇确定指定词频范围内的词频。此步骤通常用于创建用户词典时使用,其中,词频等级可分为高、中、低三个等级。
步骤“根据所设置的词频等级,对行业词汇确定指定词频范围内的词频”的具体过程为:
预先设置两个词频阈值,可以分为高词频阈值和低词频阈值,若对当前行业词汇所设置的词频等级为高,则给该行业词汇随机设置一个超过高词频阈值的词频,以确保在对文本进行分词处理时,该词能够有较高概率被选定;若对当前行业词汇所设置的词频等级为中,则给该行业词汇随机设置一个介于高词频阈值和低词频阈值之间的词频;若对当前行业词汇所设置的词频等级为低,则给该行业词汇随机设置一个低于低词频阈值的词频。
图5为本发明实施例一种行业词典的构建装置的结构组成示意图。
如图5所示,本发明另一方面提供一种行业词典的构建装置,装置包括:
词典创建模块401,用于创建指定领域的行业词典;
词典属性增设模块402,用于在所创建的行业词典中至少增设所述领域内的行业词汇以及对应的词频;
词频等级设置模块403,用于对所增设的行业词汇设置词频等级;
词频确定模块404,用于根据所设置的词频等级,对所述行业词汇确定指定词频范围内的词频。
本实施例中,首先通过词典创建模块401创建指定领域的行业词典,领域包括教育、航空、建筑等等领域。
接着通过词典属性增设模块402在所创建的行业词典中存入该领域内的行业词汇、对应的词频、发音词性等信息,其中,对应的词频可以由数据库的语料经过计算获得。
除了设定词频之外,还可以通过词频等级设置模块403对所增设的行业词汇设置词频等级,并通过词频确定模块404根据所设置的词频等级,对行业词汇确定指定词频范围内的词频。其中,词频等级可分为高、中、低三个等级。
词频确定模块404具体用于:
预先设置两个词频阈值,可以分为高词频阈值和低词频阈值,若对当前行业词汇所设置的词频等级为高,则给该行业词汇随机设置一个超过高词频阈值的词频,以确保在对文本进行分词处理时,该词能够有较高概率被选定;若对当前行业词汇所设置的词频等级为中,则给该行业词汇随机设置一个介于高词频阈值和低词频阈值之间的词频;若对当前行业词汇所设置的词频等级为低,则给该行业词汇随机设置一个低于低词频阈值的词频。
本发明另一方面提供一种计算机可读存储介质,存储介质包括一组计算机可执行指令,当指令被执行时用于执行上述任一项的分词方法。
在本发明实施例中计算机可读存储介质包括一组计算机可执行指令,当指令被执行时用于,获取文本信息;根据所获取的文本信息中字词所对应的领域,选取若干个对应的行业词典;利用所选取的行业词典,对文本信息进行分词处理,得到分词结果。由此,通过文本中字词的领域选取所对应领域的行业词典,利用所选取的行业词典对文本信息进行分词处理,相比较于现有中使用通用词典来说,能够节省空间资源、减少系统运算量和提升系统性能的效果。
本发明另一方面提供一种计算机可读存储介质,存储介质包括一组计算机可执行指令,当指令被执行时用于执行上述任一项的行业词典的构建方法。
在本发明实施例中计算机可读存储介质包括一组计算机可执行指令,当指令被执行时用于创建指定领域的行业词典;在所创建的行业词典中至少增设领域内的行业词汇以及对应的词频;对所增设的行业词汇设置词频等级;根据所设置的词频等级,对行业词汇确定指定词频范围内的词频。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种分词方法,其特征在于,所述方法包括:
获取文本信息;
根据所获取的文本信息中字词所对应的领域,选取若干个对应的行业词典;
所述行业词典的构建方法包括:创建指定领域的行业词典;在所创建的行业词典中至少增设所述领域内的行业词汇以及对应的词频;对所增设的行业词汇设置词频等级;根据所设置的词频等级,对所述行业词汇确定指定词频范围内的词频;
所述根据所设置的词频等级,对行业词汇确定指定词频范围内的词频,包括:预先设置两个词频阈值,可以分为高词频阈值和低词频阈值,若对当前行业词汇所设置的词频等级为高,则给该行业词汇随机设置一个超过高词频阈值的词频,以确保在对文本进行分词处理时,该词能够有较高概率被选定;若对当前行业词汇所设置的词频等级为中,则给该行业词汇随机设置一个介于高词频阈值和低词频阈值之间的词频;若对当前行业词汇所设置的词频等级为低,则给该行业词汇随机设置一个低于低词频阈值的词频;
利用所选取的行业词典,对所述文本信息进行分词处理,得到分词结果。
2.根据权利要求1所述的方法,其特征在于,所述利用所选取的行业词典,对所述文本信息进行分词处理,得到分词结果,包括:
对所述文本信息中的文字进行拆分,得到所有的分词组合;
针对每一分词组合,从所述行业词典中查询所述分词组合中每一分词的词频;
根据每一分词组合中所有分词所对应的词频,得到最优分词组合;
将所得到的最优分词组合作为分词结果。
3.根据权利要求2所述的方法,其特征在于,所述根据每一分词组合中所有分词所对应的词频,得到最优分词组合,包括:
将每一分词组合中的所有对应于分词的词频相加,分别计算得到综合词频;
从所有分词组合中选取综合词频最大的分词组合作为最优分词组合。
4.根据权利要求2或3所述的方法,其特征在于,在选取对应的若干个行业词典之后,所述方法还包括:
合并所选取的行业词典,得到综合词典;
相应的,所述针对每一分词组合,从所述行业词典中查询所述分词组合中每一分词的词频,包括:
针对每一分词组合,从所述综合词典中查询所述分词组合中每一分词的词频。
5.根据权利要求1所述的方法,其特征在于,在根据所获取的文本信息中字词所对应的领域,选取若干个对应的行业词典之后,所述方法还包括:
加载所选取的行业词典至本地端;
利用本地端的行业词典对所述文本信息进行分词处理,得到分词结果。
6.一种行业词典的构建方法,其特征在于,所述方法包括:
创建指定领域的行业词典;
在所创建的行业词典中至少增设所述领域内的行业词汇以及对应的词频;
对所增设的行业词汇设置词频等级;
根据所设置的词频等级,对所述行业词汇确定指定词频范围内的词频;
所述根据所设置的词频等级,对行业词汇确定指定词频范围内的词频,包括:预先设置两个词频阈值,可以分为高词频阈值和低词频阈值,若对当前行业词汇所设置的词频等级为高,则给该行业词汇随机设置一个超过高词频阈值的词频,以确保在对文本进行分词处理时,该词能够有较高概率被选定;若对当前行业词汇所设置的词频等级为中,则给该行业词汇随机设置一个介于高词频阈值和低词频阈值之间的词频;若对当前行业词汇所设置的词频等级为低,则给该行业词汇随机设置一个低于低词频阈值的词频。
7.一种分词装置,其特征在于,所述装置包括:
文本获取模块,用于获取文本信息;
行业词典选取模块,用于根据所获取的文本信息中字词所对应的领域,选取若干个对应的行业词典;
所述行业词典的构建方法包括:创建指定领域的行业词典;在所创建的行业词典中至少增设所述领域内的行业词汇以及对应的词频;对所增设的行业词汇设置词频等级;根据所设置的词频等级,对所述行业词汇确定指定词频范围内的词频;
所述根据所设置的词频等级,对行业词汇确定指定词频范围内的词频,包括:预先设置两个词频阈值,可以分为高词频阈值和低词频阈值,若对当前行业词汇所设置的词频等级为高,则给该行业词汇随机设置一个超过高词频阈值的词频,以确保在对文本进行分词处理时,该词能够有较高概率被选定;若对当前行业词汇所设置的词频等级为中,则给该行业词汇随机设置一个介于高词频阈值和低词频阈值之间的词频;若对当前行业词汇所设置的词频等级为低,则给该行业词汇随机设置一个低于低词频阈值的词频;
文本分词模块,用于利用所选取的行业词典,对所述文本信息进行分词处理,得到分词结果。
8.一种行业词典的构建装置,其特征在于,所述装置包括:
词典创建模块,用于创建指定领域的行业词典;
词典属性增设模块,用于在所创建的行业词典中至少增设所述领域内的行业词汇以及对应的词频;
词频等级设置模块,用于对所增设的行业词汇设置词频等级;
词频确定模块,用于根据所设置的词频等级,对所述行业词汇确定指定词频范围内的词频;
所述根据所设置的词频等级,对行业词汇确定指定词频范围内的词频,包括:预先设置两个词频阈值,可以分为高词频阈值和低词频阈值,若对当前行业词汇所设置的词频等级为高,则给该行业词汇随机设置一个超过高词频阈值的词频,以确保在对文本进行分词处理时,该词能够有较高概率被选定;若对当前行业词汇所设置的词频等级为中,则给该行业词汇随机设置一个介于高词频阈值和低词频阈值之间的词频;若对当前行业词汇所设置的词频等级为低,则给该行业词汇随机设置一个低于低词频阈值的词频。
9.一种计算机可读存储介质,其特征在于,所述存储介质包括一组计算机可执行指令,当所述指令被执行时用于执行权利要求1-5任一项所述的一种分词方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质包括一组计算机可执行指令,当所述指令被执行时用于执行权利要求6所述的一种行业词典的构建方法。
CN201911374500.0A 2019-12-27 2019-12-27 一种分词和行业词典构建方法、装置以及可读存储介质 Active CN111079428B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911374500.0A CN111079428B (zh) 2019-12-27 2019-12-27 一种分词和行业词典构建方法、装置以及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911374500.0A CN111079428B (zh) 2019-12-27 2019-12-27 一种分词和行业词典构建方法、装置以及可读存储介质

Publications (2)

Publication Number Publication Date
CN111079428A CN111079428A (zh) 2020-04-28
CN111079428B true CN111079428B (zh) 2023-09-19

Family

ID=70318905

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911374500.0A Active CN111079428B (zh) 2019-12-27 2019-12-27 一种分词和行业词典构建方法、装置以及可读存储介质

Country Status (1)

Country Link
CN (1) CN111079428B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112199952B (zh) * 2020-12-04 2021-03-23 支付宝(杭州)信息技术有限公司 一种分词方法、多模式分词模型和系统
CN112784570A (zh) * 2021-02-23 2021-05-11 南方电网调峰调频发电有限公司信息通信分公司 用于文本相似度计算的分词方法、装置、设备和介质
CN113435426B (zh) * 2021-08-27 2021-11-16 珠海亿智电子科技有限公司 用于ocr识别的数据增广方法、装置、设备及存储介质

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007143914A1 (fr) * 2006-06-02 2007-12-21 Beijing Sogou Technology Development Co., Ltd. Procédé, dispositif et système de saisie pour la création d'une base de données de fréquence de mots basée sur des informations issues du web
CN102169495A (zh) * 2011-04-11 2011-08-31 趣拿开曼群岛有限公司 行业词典生成方法及装置
CN104008126A (zh) * 2014-03-31 2014-08-27 北京奇虎科技有限公司 一种基于网页内容分类进行分词处理的方法和装置
CN105096933A (zh) * 2015-05-29 2015-11-25 百度在线网络技术(北京)有限公司 分词词典的生成方法和装置及语音合成方法和装置
CN105340004A (zh) * 2013-06-28 2016-02-17 谷歌公司 用于发音学习的计算机实现的方法、计算机可读介质和系统
CN108615124A (zh) * 2018-05-11 2018-10-02 北京窝头网络科技有限公司 基于词频分析的企业评价方法及系统
CN109522417A (zh) * 2018-10-26 2019-03-26 浪潮软件股份有限公司 一种公司名的商号抽取方法
CN109902304A (zh) * 2019-03-04 2019-06-18 拉扎斯网络科技(上海)有限公司 信息处理方法、装置、存储介质和电子设备
CN109918665A (zh) * 2019-03-05 2019-06-21 湖北亿咖通科技有限公司 文本的分词方法、装置和电子设备
CN110209837A (zh) * 2019-05-27 2019-09-06 广西电网有限责任公司 一种装置信息词典的生成方法及计算装置
CN110413998A (zh) * 2019-07-16 2019-11-05 深圳供电局有限公司 一种面向电力行业的自适应中文分词方法及其系统、介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005066837A1 (ja) * 2003-12-26 2005-07-21 Matsushita Electric Industrial Co., Ltd. 辞書作成装置および辞書作成方法
US10460032B2 (en) * 2017-03-17 2019-10-29 International Business Machines Corporation Cognitive lexicon learning and predictive text replacement

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007143914A1 (fr) * 2006-06-02 2007-12-21 Beijing Sogou Technology Development Co., Ltd. Procédé, dispositif et système de saisie pour la création d'une base de données de fréquence de mots basée sur des informations issues du web
CN102169495A (zh) * 2011-04-11 2011-08-31 趣拿开曼群岛有限公司 行业词典生成方法及装置
CN105340004A (zh) * 2013-06-28 2016-02-17 谷歌公司 用于发音学习的计算机实现的方法、计算机可读介质和系统
CN104008126A (zh) * 2014-03-31 2014-08-27 北京奇虎科技有限公司 一种基于网页内容分类进行分词处理的方法和装置
CN105096933A (zh) * 2015-05-29 2015-11-25 百度在线网络技术(北京)有限公司 分词词典的生成方法和装置及语音合成方法和装置
CN108615124A (zh) * 2018-05-11 2018-10-02 北京窝头网络科技有限公司 基于词频分析的企业评价方法及系统
CN109522417A (zh) * 2018-10-26 2019-03-26 浪潮软件股份有限公司 一种公司名的商号抽取方法
CN109902304A (zh) * 2019-03-04 2019-06-18 拉扎斯网络科技(上海)有限公司 信息处理方法、装置、存储介质和电子设备
CN109918665A (zh) * 2019-03-05 2019-06-21 湖北亿咖通科技有限公司 文本的分词方法、装置和电子设备
CN110209837A (zh) * 2019-05-27 2019-09-06 广西电网有限责任公司 一种装置信息词典的生成方法及计算装置
CN110413998A (zh) * 2019-07-16 2019-11-05 深圳供电局有限公司 一种面向电力行业的自适应中文分词方法及其系统、介质

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
QinJun Qiu;Zhong Xie;Liang Wu;Wenjia Li.DGeoSegmenter: A dictionary-based Chinese word segmenter for the geoscience domain.《Computers & Geosciences》.2018,第121卷全文. *
基于伪相关反馈模型的领域词典生成算法;黄玉兰;龚才春;许洪波;程学旗;;《中文信息学报》;第22卷(第01期);全文 *
基于术语教育的术语学习词典研究;王丽英; 王东海;;《中国科技术语》;第11卷(第6期);全文 *
孙霞,郑庆华,王朝静,张素娟.一种基于生语料的领域词典生成方法.小型微型计算机系统.2005,第50卷(第06期),全文. *
杨立月;王移芝.微博情感分析的情感词典构造及分析方法研究.计算机技术与发展.2018,第29卷(第2期),全文. *
麻孟越;张琨;严霞;景鸿斐.基于标签传播的评教文本情感词典构建.内蒙古大学学报(自然科学版).2019,第50卷(第3期),全文. *

Also Published As

Publication number Publication date
CN111079428A (zh) 2020-04-28

Similar Documents

Publication Publication Date Title
CN111079428B (zh) 一种分词和行业词典构建方法、装置以及可读存储介质
CN107526826B (zh) 语音搜索处理方法、装置及服务器
CN110020422A (zh) 特征词的确定方法、装置和服务器
CN110196927B (zh) 一种多轮人机对话方法、装置及设备
CN114757176A (zh) 一种获取目标意图识别模型的方法以及意图识别方法
CN114610845A (zh) 基于多系统的智能问答方法、装置和设备
CN116186200A (zh) 模型训练方法、装置、电子设备和存储介质
CN104035955A (zh) 搜索方法和装置
CN111625636A (zh) 一种人机对话的拒绝识别方法、装置、设备、介质
CN115309994A (zh) 地点检索方法、电子设备以及存储介质
CN111179904A (zh) 混合文语转换方法及装置、终端和计算机可读存储介质
CN114244795A (zh) 一种信息的推送方法、装置、设备及介质
CN113128205A (zh) 一种剧本信息处理方法、装置、电子设备及存储介质
CN117556061A (zh) 文本输出方法及装置、电子设备和存储介质
CN109753557B (zh) 问答系统的答案输出方法、装置、设备及存储介质
CN112287077A (zh) 用于文档的结合rpa和ai的语句提取方法、装置、存储介质及电子设备
CN109684357B (zh) 信息处理方法及装置、存储介质、终端
CN109712613B (zh) 语义分析库更新方法、装置及电子设备
CN114490986B (zh) 计算机实施的数据挖掘方法、装置、电子设备及存储介质
CN114706841B (zh) 查询内容库构建方法、装置、电子设备及可读存储介质
CN113553410B (zh) 长文档处理方法、处理装置、电子设备和存储介质
KR20220024251A (ko) 이벤트 라이브러리를 구축하는 방법 및 장치, 전자 기기, 및 컴퓨터 판독가능 매체
CN115455961A (zh) 一种文本处理方法、装置、设备及介质
CN115563242A (zh) 汽车信息筛选方法、装置、电子设备及存储介质
CN114780755A (zh) 一种基于知识图谱的播放数据定位方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20230815

Address after: Room 101, floor 1, building 1, courtyard 42, gaoliangqiaoxie street, Haidian District, Beijing

Applicant after: Beijing Yufanzhi Information Technology Co.,Ltd.

Address before: 100044 1001, 10th floor, office building a, 19 Zhongguancun Street, Haidian District, Beijing

Applicant before: MOBVOI INFORMATION TECHNOLOGY Co.,Ltd.

GR01 Patent grant
GR01 Patent grant