CN117290500A - 专业词库构建方法、装置、介质及程序产品 - Google Patents

专业词库构建方法、装置、介质及程序产品 Download PDF

Info

Publication number
CN117290500A
CN117290500A CN202210682126.6A CN202210682126A CN117290500A CN 117290500 A CN117290500 A CN 117290500A CN 202210682126 A CN202210682126 A CN 202210682126A CN 117290500 A CN117290500 A CN 117290500A
Authority
CN
China
Prior art keywords
word
seed
stock
professional
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210682126.6A
Other languages
English (en)
Inventor
李长林
王洪斌
肖冰
曹磊
罗奇帅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mashang Xiaofei Finance Co Ltd
Original Assignee
Mashang Xiaofei Finance Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mashang Xiaofei Finance Co Ltd filed Critical Mashang Xiaofei Finance Co Ltd
Priority to CN202210682126.6A priority Critical patent/CN117290500A/zh
Publication of CN117290500A publication Critical patent/CN117290500A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Abstract

本申请提供了一种专业词库构建方法、装置、介质及程序产品,通过获取专业语料和通用语料,对专业语料和通用语料进行取词处理,得到初始词库和通用词库;根据通用词库确定初始词库中各个待选词的专业词性关联程度,并根据专业词性关联程度从初始词库中提取种子词集;在初始词库中,分别以种子词集中的每个种子词为种子点,基于每个种子词对应的种子点以及预设聚类算法对初始词库进行聚类处理,得到待选词集;根据预设选词条件以及待选词集确定专业词库。解决了在没有数据沉淀或者说没有积累人工标注过的数据的情况下,如何快速构建一个专业词库的技术问题。达到了无需人工标注,提高了构建效率和选词准确率、降低了构建成本的技术效果。

Description

专业词库构建方法、装置、介质及程序产品
技术领域
本申请涉及自然语言处理领域,尤其涉及一种专业词库构建方法、装置、介质及程序产品。
背景技术
词是自然语言处理的基础,在语义表示上具有比字符更丰富的表达能力。词具有专业特性,不同的专业具有不同的词汇体系,如在军事专业领域、医疗专业领域、公共治安专业领域、金融专业领域等不同专业领域之间存在着很大的差异。不同的专业词库能够支持不同的应用场景。
目前,开展专业文本业务首要面临的问题就是需要投入大量人力进行人工标注,以人工创建专业词库,或者通过人工标注一定量的数据,再利用深度学习或机器学习进行专业词库构建模型的训练,以扩充专业词库的词汇量。
很多场景下,需要人工标注对词进行积累的方式成本较高,且效率较低,这就使得冷启动成为了亟待解决的技术问题,即在没有数据沉淀或者说没有积累人工标注过的数据的情况下,如何快速构建一个专业词库。
发明内容
本申请提供一种专业词库构建方法、装置、介质及程序产品,以解决在没有数据沉淀或者说没有积累人工标注过的数据的情况下,如何快速构建一个专业词库的技术问题。
第一个方面,本申请提供一种专业词库构建方法,包括:
获取专业语料和通用语料,对专业语料和通用语料进行取词处理,得到初始词库和通用词库;
根据通用词库确定初始词库中各个待选词的专业词性关联程度,并根据专业词性关联程度从初始词库中提取种子词集,种子词集中的每个种子词为一个待选词;
在初始词库中,分别以种子词集中的每个种子词为种子点,基于每个种子词对应的种子点以及预设聚类算法对初始词库进行聚类处理,得到待选词集;
根据预设选词条件以及待选词集确定专业词库。
在一种可能的设计中,种子词集中的种子词为初始词库中的词,且不为通用词库中的词;和/或,
在初始词库中检索到种子词的第一概率大于在通用词库中检索到种子词的第二概率。
在一种可能的设计中,根据通用词库确定初始词库中各个待选词的专业词性关联程度,并根据专业词性关联程度从初始词库中提取种子词集,包括:
根据第一总词量、第二总词量、待选词在初始词库中的第一数量、待选词在通用词库中的第二数量确定待选词的专业词性关联程度,第一总词量为初始词库中的词汇总数,第二总词量为通用词库中的词汇总数;
若专业词性关联程度大于预设阈值,则确定待选词为种子词。
在一种可能的设计中,根据第一总词量、第二总词量、待选词在初始词库中的第一数量、待选词在通用词库中的第二数量确定待选词的专业词性关联程度,包括:
计算第一总词量与第二数量的第一乘积;
计算第二总词量与第一数量的第二乘积;
专业词性关联程度包括第二乘积与第一乘积的商。
在一种可能的设计中,在初始词库中,在初始词库中,分别以种子词集中的每个种子词为种子点,基于每个种子词对应的种子点以及预设聚类算法对初始词库进行聚类处理,得到待选词集,包括:
分别计算各个待选词与每个种子词的语义距离;
若该语义距离小于预设距离阈值,则将待选词与对应的种子词组成第一待选词集,每个种子词得到一个第一待选词集,待选词集包括多个第一待选词集。
在一种可能的设计中,在将待选词加入与种子词对应的第一待选词集中之后,还包括:
根据语义距离的大小,将每个种子词对应的第一待选词集中的前K个第一待选词作为第二待选词,前K个第一待选词与对应种子词的语义距离,小于除前K个第一待选词外其他待选词与种子词的语义距离;
将K个第二待选词组合成一个第二待选词集,待选词集还包括:多个第二待选词集,即每个种子词对应的第二待选词集,K为正整数。
在一种可能的设计中,在将K个第二待选词组合成一个第二待选词集之后,还包括:
根据各个第一待选词集所包含的词数量选择M个第一待选词集合并成一个第三待选词集;
其中,M个第一待选词集中的每个第一待选词集的词数量大于除M个第一待选词集之外的第一待选词集的词数量;待选词集包括第三待选词集,M为正整数。
第三待选词集的作用是:避免第二待选词集过度剔除,回补一部分词。
在一种可能的设计中,在根据各个第一待选词集所包含的词数量选择M个第一待选词集合并成一个第三待选词集之后,还包括:
将种子词集、各个第二待选词集以及第三待选词集合并为待选词集合,并剔除待选词集中重复的词。
可选的,预设选词条件包括:词频条件和词性条件中的至少一个,词频条件中的词频阈值与专业语料的大小相对应,词性条件与专业语料中的专业领域相对应。
第二方面,本申请提供一种专业词库自动构建装置,包括:
获取模块,用于获取专业语料和通用语料;
处理模块,用于:
对专业语料和通用语料进行取词处理,得到初始词库和通用词库;
根据通用词库确定初始词库中各个待选词的专业词性关联程度,并根据专业词性关联程度从初始词库中提取种子词集,种子词集中的每个种子词为一个待选词;
在初始词库中,分别以种子词集中的每个上所种子词为种子点,基于每个种子词对应的种子点以及预设聚类算法对初始词库进行语义聚类,得到待选词集,并根据预设选词条件以及待选词集确定专业词库。
在一种可能的设计中,种子词集中的种子词为初始词库中的词,且不为通用词库中的词;和/或,
在初始词库中检索到种子词的第一概率大于在通用词库中检索到种子词的第二概率。
在一种可能的设计中,处理模块,用于:
根据第一总词量、第二总词量、待选词在初始词库中的第一数量、待选词在通用词库中的第二数量确定待选词的专业词性关联程度,第一总词量为初始词库中的词汇总数,第二总词量为通用词库中的词汇总数;
若专业词性关联程度大于预设阈值,则确定待选词为种子词。
在一种可能的设计中,处理模块,用于:
计算第一总词量与第二数量的第一乘积;
计算第二总词量与第一数量的第二乘积;
专业词性关联程度包括第二乘积与第一乘积的商。
在一种可能的设计中,处理模块,用于:
分别计算各个待选词与每个种子词的语义距离;
若该语义距离是否小于预设距离阈值则将待选词与对应的种子词组成第一待选词集,每个种子词得到一个第一待选词集,待选词集包括多个第一待选词集。
在一种可能的设计中,处理模块,还用于:
根据语义距离的大小,将每个种子词对应的第一待选词集中的前K个第一待选词作为第二待选词,前K个第一待选词与对应种子词的语义距离,小于除前K个第一待选词外其他待选词与种子词的语义距离;
将K个第二待选词组合成一个第二待选词集,待选词集还包括:多个第二待选词集,即每个种子词对应的第二待选词集,K为正整数。
在一种可能的设计中,处理模块,还用于:
根据各个第一待选词集所包含的词数量选择M个第一待选词集合并成一个第三待选词集;
其中,M个第一待选词集中的每个第一待选词集的词数量大于除M个第一待选词集之外的第一待选词集的词数量;待选词集包括第三待选词集,M为正整数。
第三待选词集的作用是:避免第二待选词集过度剔除,回补一部分词。
在一种可能的设计中,处理模块,还用于:
根据语义距离的大小以及第一排序顺序,对每个第一待选词集中的各个第一待选词进行排序,第一排序顺序包括:从小到大排序;
将排在前K位的第一待选词作为第二待选词。
在一种可能的设计中,处理模块,还用于:
根据各个第一待选词集所包含词的数量以及第二排序顺序,对各个第一待选词集进行排序,第二排序顺序包括:从大到小排序;
将排在前M位的第一待选词集合并为第三待选词集,待选词集包括第三待选词集。
在一种可能的设计中,处理模块,还用于:
将种子词集、各个第二待选词集以及第三待选词集合并为待选词集合,并剔除待选词集中重复的词。
可选的,预设选词条件包括:词频条件和词性条件中的至少一个,词频条件中的词频阈值与专业语料的大小相对应,词性条件与专业语料中的专业领域相对应。
第三个方面,本申请提供一种电子设备,包括:
存储器,用于存储程序指令;
处理器,用于调用并执行所述存储器中的程序指令,执行第一方面所提供的任意一种可能的物品存储信息确定方法。
第四方面,本申请提供一种存储介质,所述可读存储介质中存储有计算机程序,所述计算机程序用于执行第一方面所提供的任意一种可能的专业词库构建方法。
第五方面,本申请还提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现第一方面所提供的任意一种可能的专业词库构建方法。
本申请提供了一种专业词库构建方法、装置、介质及程序产品,通过获取专业语料和通用语料,对所述专业语料和所述通用语料进行取词处理,得到初始词库和通用词库;根据所述通用词库确定所述初始词库中各个待选词的专业词性关联程度,并根据所述专业词性关联程度从所述初始词库中提取种子词集,所述种子词集中的每个种子词为一个所述待选词;在所述初始词库中,分别以所述种子词集中的每个所述种子词为种子点,基于每个所述种子词对应的所述种子点以及预设聚类算法对所述初始词库进行聚类处理,得到待选词集;根据预设选词条件以及所述待选词集确定专业词库。本申请自动抓取专业语料和通用语料中的专业词汇,无需大量的数据沉淀或者说积累人工标注过的数据,针对词汇的专业词性关联程度自动进行了筛选,从而可以快速构建一个专业词库。达到了无需人工标注即可快速构建专业词库,提高了构建效率和选词准确率、降低了构建成本的技术效果。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1为常规技术中一种基于深度学习构建专业字典的方法的流程示意图;
图2为本申请提供的一种专业词库构建方法的流程示意图;
图3为本申请实施提供的另一种专业词库构建方法的流程示意图;
图4为本申请实施例提供的一种专业词库构建装置的结构示意图;
图5为本申请提供的一种电子设备的结构示意图。
通过上述附图,已示出本申请明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围,而是通过参考特定实施例为本领域技术人员说明本申请的概念。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,包括但不限于对多个实施例的组合,都属于本申请保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
下面对本申请所涉及到的专业名词作出解释:
1、词:是语言系统中重要的语言单元,也是开展文本处理的基础,在语义表示上具有比字符更丰富的表达能力。词具有专业特性,不同的专业具有不同的词汇体系,如军事专业、医疗专业、公共治安专业、金融专业之间存在着很大的差异性。词的这种专业性的特性,一方面可用于专业分类、专业标签化、专业区分、关键词提取以及特征词提取,也可支持知识图谱知识体系如本体与实例体系的搭建。另一方面,也提出了专业词汇的抽取,专业词汇之间语义关联的抽取、专业词汇的扩展、专业词汇知识库的构建等多项任务。与此相关的专业词汇挖掘技术是自然语言处理中的一项关键技术,也是支持业务落地和应用的必备能力之一。不同的专业词库能够支持不同的应用,专业词库可以细分为专业特征词库、专业停用词库、专业情感词库、专业抽象词库、专业语义词库、专业事件词库等6种词库。
2、BERT(Bidirectional Encoder Representations from Transformers,基于转换器的双向编码表征):一种预训练语言模型,它使用Transformer开发框架的双向编码器表示。预训练的BERT是指:可以通过一个额外的输出层对模型进行微调,以广泛适用于构建先进的模型。
3、LSTM(Long short-term memory,长短期记忆网络):是一种时间循环神经网络,是为了解决一般循环神经网络存在的长期依赖问题而设计的,能够在更长的序列中有更好的表现。
目前,开展专业文本业务首要面临的问题是冷启动问题,即在没有数据沉淀的情况下,如何快速构建一个专业词库是专业文本处理业务所要面对的技术问题。
目前专业词库的构建可以通过基于深度学习的方法,这种方法需要专业词库具备一定的标注数据积累,通过数据标注、模型训练、专业词汇抽取、筛选等模块,完成专业词库的扩充。
图1为相关技术中的一种基于深度学习构建专业字典的方法的流程示意图。如图1所示,该方法的具体步骤包括:
S101、数据标注。通过积累的一定量的专业词汇对专业领域文本进行人工标注。
S102、模型训练。一般采用实体识别任务去训练模型,模型可选择LSTM、BERT等。
S103、对待识别数据进行信息抽取。即识别待识别数据中的专业词汇。
S104、词汇筛选。即对第三步中的专业词汇进行过滤,通过置信度、词频等方式进行筛选。
S105、将筛选后的专业词汇加入到专业词库中,完成专业词库的扩充。
但是本申请发明人发现上述基于深度学习构建专业字典的方法存在以下技术问题:
1、需要一定的专业词汇积累;
2、需要领域专家进行人工标注;
3、对模型的识别准确率要求高,否则会对专业词库造成污染。
在专业词库构建的其它相关技术中,基于规则的方法准确率高,针对性强,但规则一般都是专业相关的,不具备迁移性、通用性,而且手工编写和维护规则复杂性相对较高,更多的是作为一个附加模块与其他方法相结合;基于统计的方法较为灵活,但需要一定的专业词汇积累,需要领域专家人工标注,且对模型的识别准确率要求高,否则会对专业词库造成污染。
为解决上述问题,本申请的发明构思是:
提出了一种自动构建专业词库的方法和装置,通过新词发现、种子词筛选、语义计算、词频+词性筛选等部分完成领域专业词典的自动化构建,具备准确率高、结构简单、效率高的优点。可以节省大量的人力、物力,实现以低成本完成相关领域专业词典的构建。本申请中种子词的筛选、语义聚类计算均可提升领域专业词库的质量;无需人工标注,无需专业知识,即可得到一个高质量的领域专业词典;具备良好的迁移性、通用性、可扩展性。
该专业词库构建方法可以应用于语言文字处理的各个场景和系统、专业词库构建和管理的场景和系统等等,该专业词库构建方法的执行主体包括:用于语言文字处理的处理器、服务器等。
下面具体介绍本申请提供的专业词库构建方法:
图2为本申请实施例提供的一种专业词库构建方法的流程示意图。如图2所示,其具体步骤包括:
S201、获取专业语料和通用语料,对专业语料和通用语料进行取词处理,得到初始词库和通用词库。
在本步骤中,同一个词在初始词库和通用词库中可以出现多次。专业语料中包括一个或多个专业领域的语义资料。
在本实施例中,取词处理包括:新词发现和去停用词。
新词发现:用户从互联网或者数据库或者大数据中心导入专业语料和通用语料。然后,利用新词发现工具(如采用基于互信息和/或左右熵的新词发现工具)分别对专业语料和通用语料进行新词发现。再将新词发现的结果分别存储到对应的数据库中,即将专业语料的新词发现结果存入第一数据库,将通用语料的新词发现结果存入第二数据库。
需要说明的是,专业语料包括至少一个专业领域的文本合集,如经济类、金融类、军事类、医疗类、半导体类、计算机类等等,在文本合集中包含了大量的专业词语。通用语料包括:可获得的公开文本集合,如新闻稿、公开数据集、网络媒体数据等等。
去停用词:利用停用词库对新词发现结果即第一数据库和第二数据库中的所有的词进行过滤,过滤后即可得到初始词库和通用词库。其作用包括:一是可以减少无效的词的数量,提升整个装置的速率;二是提升下文语义计算即S203中语义聚类的准确率。
S202、根据通用词库确定初始词库中各个待选词的专业词性关联程度,并根据专业词性关联程度从初始词库中提取种子词集。
在本步骤中,专业词性关联程度是指一个词汇在某个领域专用程度,比如针对某个领域中的专业词汇,其在该领域的专业词性关联程度就高,反之,如果一个词汇可以应用在各个领域,则这个词汇称为通用词汇,其在某个领域的专业词性关联程度就低。
种子词集中的种子词的选取要求包括:种子词集中的种子词为初始词库中的词,且不为通用词库中的词;和/或,
在初始词库中检索到种子词的第一概率大于在通用词库中检索到种子词的第二概率。
需要说明的是,种子词是具备在至少一个专业领域的特殊专用属性,其在另外的专业领域很少涉及,而在通用语料中的出现概率也较低,但并不是完全不会出现,在某些新闻报道或者科普类文字资料中也可能会提及,但是出现的概率不高。
本申请并不需要人为地去标注种子词,而是通过对比初始词库和通用词库,自动在两者中循环搜寻种子词,从而节省了大量的人力成本,也大大提高了种子词集的构建效率。
通过比较初始词库和通用词库中的词语筛选出初始词库的种子词,能够筛选出高质量的种子词,进而提升最终专业词库的质量。
在一种可能的实施方式中,也可以用以下方式来确定种子词:
根据第一总词量、第二总词量、待选词在初始词库中的第一数量、待选词在通用词库中的第二数量确定待选词的专业词性关联程度,第一总词量为初始词库中的词汇总数,第二总词量为通用词库中的词汇总数;
若专业词性关联程度大于预设阈值,则确定待选词为种子词。
需要说明的是,该实施方式的具体原理和名词解释可以参考图3所示实施例,在此不再赘述。
S203、在初始词库中,分别以种子词集中的每个种子词为种子点,基于每个种子词对应的种子点以及预设聚类算法对初始词库进行聚类处理,得到待选词集,并根据预设选词条件以及待选词集确定专业词库。
在本步骤中,具体包括:
分别计算各个待选词与每个种子词的语义距离;
若该语义距离小于预设距离阈值,则将待选词与对应的种子词组成第一待选词集,每个种子词得到一个第一待选词集,待选词集包括多个第一待选词集。
例如,对初始词库中的各个待选词以及种子词集中的各个种子词进行向量化表示,以确定各个待选词向量以及各个种子词向量;分别计算各个待选词向量与每个种子词向量的语义距离,并判断语义距离是否大于预设距离阈值;若是,则将待选词加入与种子词对应的第一待选词集中。
需要说明的是,待选词集中包括多个第一待选词集。语义距离包括:欧式距离、余弦距离等。
在本实施例中,种子词的数量与第一待选词集的数量相等。
可选的,在S202执行完毕后,可以将种子词集从初始词库中剔除,以避免第一待选词集中重复将种子词纳入其中,影响计算效率。
可选的,预设选词条件包括:词频条件和词性条件中的至少一个,词频条件中的词频阈值与专业语料的大小相对应,词性条件与专业语料中的专业领域相对应。
例如,词频条件包括:在词汇出现的频率大于预设频率阈值时,将该词汇加入专业词汇库。
词性条件包括:词汇所表达的语义与专业领域相对应,则将其加入专业词汇库。
本实施例提出的方案通过微调可以适应别的任务或者应用场景,也可以将其他优秀的方案嵌入到实施逻辑中,因此本申请具备良好的迁移性、通用性、可扩展性。例如,可以在本实施例的基础上,通过调整阈值等,就可以对新词发现进行质量检测,提升新词发现的质量。
本申请实施例提供了一种专业词库构建方法,通过获取专业语料和通用语料,并从专业语料和通用语料中分别进行取词处理,以确定初始词库和通用词库,其中,同一个词在初始词库和通用词库中可以出现多次;根据通用词库确定初始词库中各个待选词的专业词性关联程度,并根据专业词性关联程度从初始词库中提取种子词集;在初始词库中,分别以种子词集中的每个种子词为聚类中心进行语义聚类,以确定待选词集,并根据预设选词条件以及待选词集确定专业词库。解决了在没有数据沉淀或者说没有积累人工标注过的数据的情况下,如何快速构建一个专业词库的技术问题。达到了无需人工标注即可快速构建专业词库,提高了构建效率和选词准确率、降低了构建成本的技术效果。
图3为本申请实施提供的另一种专业词库构建方法的流程示意图。如图3所示,该专业词库构建方法可以应用于语言文字处理的各个场景和系统、专业词库构建和管理的场景和系统等等,具体步骤包括:
S301、获取专业语料和通用语料,并从专业语料和通用语料中分别进行取词处理,以确定初始词库和通用词库。
在本步骤中,同一个词在初始词库和通用词库中可以出现多次。专业语料中包括一个或多个专业领域的语义资料。
S302、根据第一总词量、第二总词量、待选词在初始词库中的第一数量、待选词在通用词库中的第二数量确定待选词的专业词性关联程度。
在本步骤中,第一总词量为初始词库中的词汇总数,第二总词量为通用词库中的词汇总数。具体的,计算第一总词量与第二数量的第一乘积;计算第二总词量与第一数量的第二乘积;专业词性关联程度包括第二乘积与第一乘积的商。
需要说明的是,在本实施例中,待选词的专业词性关联程度可以分为两种情况:
第一种是为初始词库中的词,且不为通用词库中的词。
具体的,对于某个待选词,其对应的第二数量大于零,则认为其不是这种情况下认定的第一种子词,进入第二种专业程度的判断,即判断其是否为第二种子词。
所有的第一种子词所构成的集合C1可以通过公式(1)计算得到:
C1=A-A∩B (1)
其中,A表示初始词库,B表示通用词库。
第二种是在初始词库中检索到种子词的第一概率大于在通用词库中检索到种子词的第二概率。
具体的,在这种情况下,某个待选词i的专业词性关联程度Zi可以用公式(2)来表示:
其中,lA和lB分别表示第一总词量和第二总词量,Ai和Bi分别表示第一数量和第二数量。
S303、若专业词性关联程度大于预设阈值,则确定待选词为种子词。
在本实施例中,在步骤S302中C1中的第一种子词其专业词性关联程度最高。而对于第二种子词,就需要设置预设阈值α,通过比对专业词性关联程度Z与预设阈值α,即可得到该待选词是否为第二种子词。第二种子词所形成的集合C2可以用公式(3)来表示:
C2={i∈A∩B|Zi>α} (3)
最后求集合C1和集合C2的并集,并去除重复的词后即可得到种子词集C。
可选的,从初始词典A中剔除种子词集C中的种子词,以避免后续语义计算时影响计算的准确度和计算效率。
接下来进入语义计算,具体的计算方式和规则如下:
S304、对初始词库中的各个待选词以及种子词集中的各个种子词进行向量化表示,以确定各个待选词向量以及各个种子词向量。
在本步骤中,对初始词库A和种子词集C中的词语进行向量化表示,其中,向量化表示的方法包括:word2vec、glove等。
S305、分别计算各个待选词向量与每个种子词向量的语义距离,并判断语义距离是否小于预设距离阈值。
在本步骤中,若是,则执行S306,否则继续计算下一个语义距离。
可选的,语义距离包括:欧式距离、余弦距离等。
S306、将待选词加入与种子词对应的第一待选词集中。
在本实施例中,假设种子词集C中共有n个种子词,则种子词集C可表示为{C1,C2,…,Cn}。
针对种子词集C中的每一个种子词Cj(1≤j≤n):
首先,取出初始词库A中的第一个待选词A1,计算Cj与A1的语义距离d(Cj,A1)。若d(Cj,A1)<β,则将词语A1加入以种子词Cj为中心的第一待选集合中。否则,取出初始词库A中的第2个待选词A2,计算Cj与A2的语义距离d(Cj,A2)。需要说明的是β表示第一预设距离阈值。
为便于后边的计算说明,这里假设A1满则条件,则以种子词Cj为中心的集合中就有了一个相关词Cj1。接着取出领域词典A中的第2个词A2,此时,需要分别计算待选词A2与Cj、Cj1的语义距离d(Cj,A2)和d(Cj1,A2)。
然后判断这两个语义距离与第一预设距离阈值β和第二预设距离阈值γ的大小,若d(Cj,A2)<β且d(Cj1,A2)<γ,则将待选词A2加入以种子词Cj为中心的第一待选集合,并将待选词A2表示为Cj2;否则取出初始词库A中的第3个待选词A3,重复上述计算。
同理,之后初始词库A中每一个待选词,都需满足与Cj的语义距离小于第一预设距离阈值β,与以种子词Cj为中心的集合中的每一个词Cjm的语义距离都小于第二预设距离阈值γ,才满足加入以种子词Cj为中心的第一待选词集合中,直至初始词库A中的词语被遍历完,进入下一个种子词的对应的第一待选词集合的循环遍历过程,直至所有的种子词对应的第一待选词集合构建完毕。这种语义计算方式及规则,可以提升整个流程的计算效率,以及保证专业词库的质量。
S307、根据语义距离的大小,将每个种子词对应的第一待选词集中的前K个第一待选词作为第二待选词,并将K个第二待选词组合成一个第二待选词集。
在本步骤中,为了进一步提高专业词库的质量,需要在S306中的专业程度的基础上,从另一个维度来进一步进行筛选。所以需要设定了不同于专业程度的预设距离要求。
在一种可能的实施方式中,根据语义距离的大小,将每个种子词对应的第一待选词集中的前K个的第一待选词作为第二待选词,具体包括:
根据语义距离的大小以及第一排序顺序,对每个第一待选词集中的各个第一待选词进行排序。
即根据每个第一待选词集中的各个第一待选词与对应的种子词的语义距离的大小以及第一排序顺序,对每个第一待选词集中的各个第一待选词进行排序,第一排序顺序包括:从小到大排序;
将排在前K位的第一待选词作为第二待选词。
例如,将某个第一待选词集{Cm1,Cm2,……,Cmn}对应的种子词为Cj,那么根据语义距离d(Cmi,Cj)的大小,将这个第一待选词集的每个第一待选词按从小到大的顺序排列,选出前k位的所有第一待选词作为第二待选词,组合成第二待选集合。
可选的,第一排序顺序也可以是,先从小到大排序后,再将奇数位或者偶数位提取出来,将所有奇数位和偶数位分别拍成两列后,再将这两列重新组合成一列。这样就可以将线性的语义距离维度转变为非线性的语义距离维度,使得专业词库的待选词筛选更全面,质量更高。可以理解的是,本领域技术人员可以根据实际场景来设计第一排序顺序,本申请不作限定。
S308、根据各个第一待选词集所包含的词数量选择M个第一待选词集合并成一个第三待选词集。
在本步骤中,M个第一待选词集中的每个第一待选词集的词数量大于除M个第一待选词集之外的第一待选词集的词数量。
具体的,根据各个第一待选词集所包含词的数量以及第二排序顺序,对各个第一待选词集进行排序,并将排在前M位的第一待选词集合并为第三待选词集。第二排序顺序包括:从大到小排序。为了避免S305~S307出现过渡剔除的问题,需要回补部分待选词,因此设计了本步骤。
具体的,将各个第一待选词集按所包含的第一待选词的总量即第一待选词集所包含词的数量,进行从大到小排序,然后将排在前M位的所有第一待选词集提取出来,合并成第三待选词集。
需要说明的是,第二排序顺序也可以是其它的排序方式,比如,先根据从大到小进行第一次排序,然后以预设间隔,如每隔2~5个词再次提取出多个第一待选词集,然后将剩下或者是提取出来的各个第一待选词集中选出M个作为第三待选词集。本领域技术人员可以根据实际场景对第二排序顺序进行设计,本申请不作限定。
S304~S308属于语义计算,通过设计新型的语义计算规则,筛选出以种子词为中心的潜在专业词语,在通过进一步的筛选,获得第二待选词集和第三待选词集。
S309、将种子词集、各个第二待选词集以及第三待选词集合并为待选词集合,并剔除待选词集中重复的词。
S310、根据预设选词条件以及待选词集确定专业词库。
在本步骤中,预设选词条件包括:词频条件和词性条件中的至少一个,词频条件中的词频阈值与专业语料的大小相对应,词性条件与专业语料中的专业领域相对应。
需要说明的是,词频+词性筛选部分,该部分对最终专业词库的质量起着促进作用。
具体的,本申请采用词频和词性串行的方式进行判断,即待选词集中的词语需要同时满足词频和词性两个条件,才能加入专业词库中。这里词频阈值的设置,需结合领域语料的大小去制定;词性的要求取决于语料所述的领域,例如,如果语料中的数据内容属于金融类别,一般要求词性必须满足是名词。
本申请实施例提供了一种专业词库构建方法,通过新词发现、种子词筛选、语义计算、词频+词性筛选等部分完成领域专业词典的自动化构建,具备准确率高、结构简单、效率高的优点。可以节省大量的人力、物力,实现以低成本完成相关领域专业词典的构建。本申请中种子词的筛选、语义聚类计算均可提升领域专业词库的质量;无需人工标注,无需专业知识,即可得到一个高质量的领域专业词典;具备良好的迁移性、通用性、可扩展性。
图4为本申请实施例提供的一种专业词库构建装置的结构示意图。该专业词库自动构建装置400可以通过软件、硬件或者两者的结合实现。
如图4所示,该专业词库自动构建装置400包括:
获取模块401,用于获取专业语料和通用语料;
处理模块402,用于:
对专业语料和通用语料进行取词处理,得到初始词库和通用词库;
根据通用词库确定初始词库中各个待选词的专业词性关联程度,并根据专业词性关联程度从初始词库中提取种子词集,种子词集中的每个种子词为一个待选词;
在初始词库中,分别以种子词集中的每个上所种子词为种子点,基于每个种子词对应的种子点以及预设聚类算法对初始词库进行语义聚类,得到待选词集,并根据预设选词条件以及待选词集确定专业词库。
在一种可能的设计中,种子词集中的种子词为初始词库中的词,且不为通用词库中的词;和/或,
在初始词库中检索到种子词的第一概率大于在通用词库中检索到种子词的第二概率。
在一种可能的设计中,处理模块402,用于:
根据第一总词量、第二总词量、待选词在初始词库中的第一数量、待选词在通用词库中的第二数量确定待选词的专业词性关联程度,第一总词量为初始词库中的词汇总数,第二总词量为通用词库中的词汇总数;
若专业词性关联程度大于预设阈值,则确定待选词为种子词。
在一种可能的设计中,处理模块402,用于:
计算第一总词量与第二数量的第一乘积;
计算第二总词量与第一数量的第二乘积;
专业词性关联程度包括第二乘积与第一乘积的商。
在一种可能的设计中,处理模块402,用于:
分别计算各个待选词与每个种子词的语义距离;
若该判断语义距离小于预设距离阈值,则将待选词与对应的种子词组成第一待选词集,每个种子词得到一个第一待选词集,待选词集包括多个第一待选词集。
在一种可能的设计中,处理模块402,还用于:
根据语义距离的大小,将每个种子词对应的第一待选词集中的前K个第一待选词作为第二待选词,前K个第一待选词与对应种子词的语义距离,小于除前K个第一待选词外其他待选词与种子词的语义距离;
将K个第二待选词组合成一个第二待选词集,待选词集还包括:多个第二待选词集,即每个种子词对应的第二待选词集,K为正整数。
在一种可能的设计中,处理模块402,还用于:
根据各个第一待选词集所包含的词数量选择M个第一待选词集合并成一个第三待选词集;
其中,M个第一待选词集中的每个第一待选词集的词数量大于除M个第一待选词集之外的第一待选词集的词数量;待选词集包括第三待选词集,M为正整数。
第三待选词集的作用是:避免第二待选词集过度剔除,回补一部分词。
在一种可能的设计中,处理模块402,还用于:
根据语义距离的大小以及第一排序顺序,对每个第一待选词集中的各个第一待选词进行排序,第一排序顺序包括:从小到大排序;
将排在前K位的第一待选词作为第二待选词。
在一种可能的设计中,处理模块402,还用于:
根据各个第一待选词集所包含词的数量以及第二排序顺序,对各个第一待选词集进行排序,第二排序顺序包括:从大到小排序;
将排在前M位的第一待选词集合并为第三待选词集,待选词集包括第三待选词集。
在一种可能的设计中,处理模块402,还用于:
将种子词集、各个第二待选词集以及第三待选词集合并为待选词集合,并剔除待选词集中重复的词。
可选的,预设选词条件包括:词频条件和词性条件中的至少一个,词频条件中的词频阈值与专业语料的大小相对应,词性条件与专业语料中的专业领域相对应。
值得说明的是,图4所示实施例提供的装置,可以执行上述任一方法实施例中所提供的方法,其具体实现原理、技术特征、专业名词解释以及技术效果类似,在此不再赘述。
图5为本申请实施例提供的一种电子设备的结构示意图。如图5所示,该电子设备500,可以包括:至少一个处理器501和存储器502。图5示出的是以一个处理器为例的电子设备。
存储器502,用于存放程序。具体地,程序可以包括程序代码,程序代码包括计算机操作指令。
存储器502可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
处理器501用于执行存储器502存储的计算机执行指令,以实现以上各方法实施例所述的方法。
其中,处理器501可能是一个中央处理器(central processing unit,简称为CPU),或者是特定集成电路(application specific integrated circuit,简称为ASIC),或者是被配置成实施本申请实施例的一个或多个集成电路。
可选地,存储器502既可以是独立的,也可以跟处理器501集成在一起。当所述存储器502是独立于处理器501之外的器件时,所述电子设备500,还可以包括:
总线503,用于连接所述处理器501以及所述存储器502。总线可以是工业标准体系结构(industry standard architecture,简称为ISA)总线、外部设备互连(peripheralcomponent,PCI)总线或扩展工业标准体系结构(extended industry standardarchitecture,EISA)总线等。总线可以分为地址总线、数据总线、控制总线等,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器502和处理器501集成在一块芯片上实现,则存储器502和处理器501可以通过内部接口完成通信。
本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质可以包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random accessmemory,RAM)、磁盘或者光盘等各种可以存储程序代码的介质,具体的,该计算机可读存储介质中存储有程序指令,程序指令用于上述各方法实施例中的方法。
本申请实施例还提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由本申请的权利要求书指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求书来限制。

Claims (12)

1.一种专业词库构建方法,其特征在于,包括:
获取专业语料和通用语料,对所述专业语料和所述通用语料进行取词处理,得到初始词库和通用词库;
根据所述通用词库确定所述初始词库中各个待选词的专业词性关联程度,并根据所述专业词性关联程度从所述初始词库中提取种子词集,所述种子词集中的每个种子词为一个所述待选词;
在所述初始词库中,分别以所述种子词集中的每个所述种子词为种子点,基于每个所述种子词对应的所述种子点以及预设聚类算法对所述初始词库进行聚类处理,得到待选词集;
根据预设选词条件以及所述待选词集确定专业词库。
2.根据权利要求1所述的专业词库构建方法,其特征在于,所述种子词集中的所述种子词为所述初始词库中的词,且不为所述通用词库中的词;和/或,
在所述初始词库中检索到所述种子词的第一概率大于在所述通用词库中检索到所述种子词的第二概率。
3.根据权利要求1所述的专业词库构建方法,其特征在于,所述根据所述通用词库确定所述初始词库中各个待选词的专业词性关联程度,并根据所述专业词性关联程度从所述初始词库中提取种子词集,包括:
根据第一总词量、第二总词量、所述待选词在所述初始词库中的第一数量、所述待选词在所述通用词库中的第二数量确定所述待选词的所述专业词性关联程度,所述第一总词量为所述初始词库中的词汇总数,所述第二总词量为所述通用词库中的词汇总数;
若所述专业词性关联程度大于预设阈值,则确定所述待选词为所述种子词。
4.根据权利要求3所述的专业词库构建方法,其特征在于,所述根据第一总词量、第二总词量、所述待选词在所述初始词库中的第一数量、所述待选词在所述通用词库中的第二数量确定所述待选词的所述专业词性关联程度,包括:
计算所述第一总词量与所述第二数量的第一乘积;
计算所述第二总词量与所述第一数量的第二乘积;
所述专业词性关联程度包括所述第二乘积与所述第一乘积的商。
5.根据权利要求1所述的专业词库构建方法,其特征在于,所述在所述初始词库中,分别以所述种子词集中的每个所述种子词为种子点,基于每个所述种子词对应的所述种子点以及预设聚类算法对所述初始词库进行聚类处理,得到待选词集,包括:
分别计算各个所述待选词与每个所述种子词之间的语义距离;
若所述待选词与所述种子词之间的所述语义距离小于预设距离阈值,则将所述待选词与对应的所述种子词组成第一待选词集,每个所述种子词得到一个所述第一待选词集。
6.根据权利要求5所述的专业词库构建方法,其特征在于,在所述将所述待选词加入与所述种子词对应的第一待选词集中之后,还包括:
根据所述语义距离的大小,将每个所述种子词对应的所述第一待选词集中的前K个所述第一待选词作为第二待选词,所述前K个所述第一待选词与对应所述种子词的语义距离,小于除前K个所述第一待选词外其他待选词与所述种子词的语义距离;
将K个所述第二待选词组合成一个第二待选词集,所述待选词集还包括:每个所述种子词对应的第二待选词集,所述K为正整数。
7.根据权利要求6所述的专业词库构建方法,其特征在于,在将所述K个所述第二待选词组合成一个第二待选词集之后,还包括:
根据各个所述第一待选词集所包含的词数量选择M个第一待选词集合并成一个第三待选词集;
其中,所述M个第一待选词集中的每个第一待选词集的词数量大于除所述M个第一待选词集之外的第一待选词集的词数量;所述待选词集包括所述第三待选词集,所述M为正整数。
8.根据权利要求7所述的专业词库构建方法,其特征在于,在所述根据各个所述第一待选词集所包含的词数量选择M个第一待选词集合并成一个第三待选词集之后,还包括:
将所述种子词集、各个所述第二待选词集以及所述第三待选词集合并为所述待选词集合,并剔除所述待选词集中重复的词。
9.根据权利要求1至8任一项所述的专业词库构建方法,其特征在于,所述预设选词条件包括:词频条件和词性条件中的至少一个,所述词频条件中的词频阈值与所述专业语料的大小相对应,所述词性条件与所述专业语料中的专业领域相对应。
10.一种专业词库自动构建装置,其特征在于,包括:
获取模块,用于获取专业语料和通用语料;
处理模块,用于:
对所述专业语料和所述通用语料进行取词处理,得到初始词库和通用词库;
根据所述通用词库确定所述初始词库中各个待选词的专业词性关联程度,并根据所述专业词性关联程度从所述初始词库中提取种子词集,所述种子词集中的每个种子词为一个所述待选词;
在所述初始词库中,分别以所述种子词集中的每个所述种子词为种子点,基于每个所述种子词对应的所述种子点以及预设聚类算法对所述初始词库进行聚类处理,得到待选词集,并根据预设选词条件以及所述待选词集确定专业词库。
11.一种电子设备,其特征在于,包括:
处理器;以及,
存储器,用于存储所述处理器的计算机程序;
其中,所述处理器配置为经由执行所述计算机程序来执行权利要求1至9任一项所述的专业词库构建方法。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至9任一项所述的专业词库构建方法。
CN202210682126.6A 2022-06-16 2022-06-16 专业词库构建方法、装置、介质及程序产品 Pending CN117290500A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210682126.6A CN117290500A (zh) 2022-06-16 2022-06-16 专业词库构建方法、装置、介质及程序产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210682126.6A CN117290500A (zh) 2022-06-16 2022-06-16 专业词库构建方法、装置、介质及程序产品

Publications (1)

Publication Number Publication Date
CN117290500A true CN117290500A (zh) 2023-12-26

Family

ID=89255851

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210682126.6A Pending CN117290500A (zh) 2022-06-16 2022-06-16 专业词库构建方法、装置、介质及程序产品

Country Status (1)

Country Link
CN (1) CN117290500A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117709355A (zh) * 2024-02-05 2024-03-15 四川蜀天信息技术有限公司 一种提高大语言模型训练效果的方法、装置及介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117709355A (zh) * 2024-02-05 2024-03-15 四川蜀天信息技术有限公司 一种提高大语言模型训练效果的方法、装置及介质

Similar Documents

Publication Publication Date Title
WO2018049960A1 (zh) 一种为文本信息匹配资源的方法及装置
CN111159359B (zh) 文档检索方法、装置及计算机可读存储介质
CN111539197B (zh) 文本匹配方法和装置以及计算机系统和可读存储介质
CN110795525A (zh) 文本结构化方法、装置、电子设备及计算机可读存储介质
CN112417153A (zh) 文本分类方法、装置、终端设备和可读存储介质
CN112818117A (zh) 标签映射方法、系统、计算机可读存储介质
CN105354182B (zh) 获取相关数字资源的方法及使用其生成专题的方法及装置
CN112989813A (zh) 一种基于预训练语言模型的科技资源关系抽取方法及装置
CN112287656A (zh) 文本比对方法、装置、设备和存储介质
CN110287493B (zh) 风险短语识别方法、装置、电子设备及存储介质
Priyadharshan et al. Text summarization for Tamil online sports news using NLP
Atwan et al. The effect of using light stemming for Arabic text classification
CN111737420A (zh) 一种基于争议焦点的类案检索方法及系统及装置及介质
CN117290500A (zh) 专业词库构建方法、装置、介质及程序产品
CN112581327B (zh) 基于知识图谱的法律推荐方法、装置和电子设备
CN116050397B (zh) 一种长文本摘要生成方法、系统、设备及存储介质
CN111680146A (zh) 确定新词的方法、装置、电子设备及可读存储介质
CN111401056A (zh) 一种从多类文本中提取关键词的方法
CN115600602A (zh) 一种长文本的关键要素抽取方法、系统及终端设备
CN115408523A (zh) 基于摘要提取和关键字提取的中长文本分类方法和系统
CN114996400A (zh) 裁判文书处理方法、装置、电子设备及存储介质
Zandieh et al. Clustering data text based on semantic
CN111160028A (zh) 判断两个文本语义相似度的方法、装置、存储介质及设备
CN115688771B (zh) 一种文书内容比对性能提升方法及系统
CN114881034B (zh) 关系数据增强方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination