CN116108834A - 交互式用户词典构建方法、装置和设备 - Google Patents

交互式用户词典构建方法、装置和设备 Download PDF

Info

Publication number
CN116108834A
CN116108834A CN202310374036.5A CN202310374036A CN116108834A CN 116108834 A CN116108834 A CN 116108834A CN 202310374036 A CN202310374036 A CN 202310374036A CN 116108834 A CN116108834 A CN 116108834A
Authority
CN
China
Prior art keywords
dictionary
word
words
target
obtaining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310374036.5A
Other languages
English (en)
Inventor
钱基德
梁琰
孙宏
陈亚青
杜冬
徐海文
秦小林
曾昶畅
钮益峰
钱基业
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Civil Aviation Flight University of China
Original Assignee
Civil Aviation Flight University of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Civil Aviation Flight University of China filed Critical Civil Aviation Flight University of China
Priority to CN202310374036.5A priority Critical patent/CN116108834A/zh
Publication of CN116108834A publication Critical patent/CN116108834A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • User Interface Of Digital Computer (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种交互式用户词典构建方法、装置和设备,响应于目标领域的专家提供的属于目标领域的至少一个专业词语,获得第一词典,该第一词典包括第一词语,第一词语包括至少一个专业词语;基于目标领域的至少一个语料库的分词词语和第一词典获得第二词典,第二词典所包括的第二词语属于分词词语但与第一词语不同;若确定第二词语与第一词语相似,则将第二词语添加到第一词典获得第三词典;基于第三词典,获得目标领域的目标用户词典。这样,专家提供少量的用户词典初始化和标注,结合自然语言处理技术自动扩充词典,交互地构建出该目标领域的目标用户词典,所构建的目标用户词典不仅质量有保障,而且构建成本低、效率高。

Description

交互式用户词典构建方法、装置和设备
技术领域
本申请涉及自然语言处理技术领域,特别是涉及一种交互式用户词典构建方法、装置和设备。
背景技术
自然语言处理(Natural Language Processing,NLP)中,通常会采用用户词典提高分词、命名体识别和关键词抽取等应用的性能。用户词典与应用场景对应,针对某些专业领域的应用场景(如民航飞行培训的教员评语量化分析,又如电力作业工作票、操作票的规范化验证),高质量的用户词典对提升NLP算法在这些应用场景的性能尤其重要。但是,目前,构建用户词典的方式为:标注人员对专业领域的语料库进行标注,这对标注人员的专业知识要求较高,导致该用户词典的构建需要较高的成本。
发明内容
本申请提供了一种交互式用户词典构建方法、装置和设备,能够高效的、低成本地构建出专业领域的高质量的用户词典,从而提升NLP中应用的性能。
第一方面,本申请提供了一种交互式用户词典构建方法,包括:
响应于目标领域的专家提供的属于所述目标领域的至少一个专业词语,获得第一词典,所述第一词典包括第一词语,所述第一词语包括所述至少一个专业词语;
基于所述目标领域的至少一个语料库的分词词语和所述第一词典,获得第二词典,所述第二词典所包括的第二词语属于所述分词词语但与所述第一词语不同;
若确定所述第二词语与所述第一词语相似,则将所述第二词语添加到所述第一词典,获得第三词典;
基于所述第三词典,获得所述目标领域的目标用户词典。
可选地,所述第二词语与所述第一词语相似,包括:所述第二词语与至少一个所述第一词语的词距离小于预设的第一阈值。
可选地,所述基于所述第三词典,获得所述目标领域的目标用户词典,包括:
将所述第三词典作为所述目标用户词典;或者,
基于所述第三词典中的词语在所述至少一个语料库中的词频,确定所述目标用户词典;或者,
基于所述第三词典中的词语的聚类结果,确定所述目标用户词典。
可选地,所述响应于目标领域的专家提供的属于所述目标领域的至少一个专业词语,获得第一词典,包括:
响应于所述目标领域的专家提供的所述至少一个专业词语,获得初始词典,所述初始词典包括所述至少一个专业词语;
基于近义词词典和所述初始词典,获得所述第一词典,所述第一词语还包括所述至少一个专业词语中的每个专业词语在所述近义词词典中对应的近义词。
可选地,所述方法还包括:
获得所述目标领域的停用词词典,所述停用词词典中的停用词为不应该出现在所述目标领域的用户词典中的词语。
可选地,所述基于所述目标领域的至少一个语料库的分词词语和所述第一词典,获得第二词典,包括:
对所述至少一个语料库进行分词,获得所述分词词语;
从所述分词词语中,获得不属于所述第一词典也不属于所述停用词词典的所述第二词语;
基于所述第二词语构建所述第二词典。
可选地,所述方法还包括:
若确定所述第二词语与所有的所述第一词语均不相似,但所述第二词语与所述停用词词典中的至少一个停用词相似,则将所述第二词语添加到所述停用词词典,获得第四词典;
若所述第二词语与所有的所述第一词语均不相似,且所述第二词语与所述停用词词典中的所有停用词均不相似,则将所述第二词语保留在所述第二词典中。
可选地,所述基于所述第三词典,获得所述目标领域的目标用户词典,包括:
从所述第二词典、所述第三词典和所述第四词典中抽取待标注词语;
响应于所述目标领域的专家对所述待标注词语的标注,更新所述第三词典;
基于更新后的所述第三词典,获得所述目标用户词典。
第二方面,本申请还提供了一种交互式用户词典构建装置,包括:
第一获得单元,用于响应于目标领域的专家提供的属于所述目标领域的至少一个专业词语,获得第一词典,所述第一词典包括第一词语,所述第一词语包括所述至少一个专业词语;
第二获得单元,用于基于所述目标领域的至少一个语料库的分词词语和所述第一词典,获得第二词典,所述第二词典所包括的第二词语属于所述分词词语但与所述第一词语不同;
第三获得单元,用于若确定所述第二词语与所述第一词语相似,则将所述第二词语添加到所述第一词典,获得第三词典;
第四获得单元,用于基于所述第三词典,获得所述目标领域的目标用户词典。
可选地,所述第二词语与所述第一词语相似,包括:所述第二词语与至少一个所述第一词语的词距离小于预设的第一阈值。
可选地,所述第四获得单元,具体用于:
将所述第三词典作为所述目标用户词典;或者,
基于所述第三词典中的词语在所述至少一个语料库中的词频,确定所述目标用户词典;或者,
基于所述第三词典中的词语的聚类结果,确定所述目标用户词典。
可选地,所述第一获得单元,包括:
第一获得子单元,用于响应于所述目标领域的专家提供的所述至少一个专业词语,获得初始词典,所述初始词典包括所述至少一个专业词语;
第二获得子单元,用于基于近义词词典和所述初始词典,获得所述第一词典,所述第一词语还包括所述至少一个专业词语中的每个专业词语在所述近义词词典中对应的近义词。
可选地,所述装置还包括:
第五获得单元,用于获得所述目标领域的停用词词典,所述停用词词典中的停用词为不应该出现在所述目标领域的用户词典中的词语。
可选地,所述第二获得单元,包括:
分词子单元,用于对所述至少一个语料库进行分词,获得所述分词词语;
第三获得子单元,用于从所述分词词语中,获得不属于所述第一词典也不属于所述停用词词典的所述第二词语;
构建子单元,用于基于所述第二词语构建所述第二词典。
可选地,所述装置还包括:
第六获得单元,用于若确定所述第二词语与所有的所述第一词语均不相似,但所述第二词语与所述停用词词典中的至少一个停用词相似,则将所述第二词语添加到所述停用词词典,获得第四词典;
第七获得单元,用于若所述第二词语与所有的所述第一词语均不相似,且所述第二词语与所述停用词词典中的所有停用词均不相似,则将所述第二词语保留在所述第二词典中。
可选地,所述第四获得单元,包括:
抽取子单元,用于从所述第二词典、所述第三词典和所述第四词典中抽取待标注词语;
更新子单元,用于响应于所述目标领域的专家对所述待标注词语的标注,更新所述第三词典;
第四获得子单元,用于基于更新后的所述第三词典,获得所述目标用户词典。
第三方面,本申请还提供了一种电子设备,所述电子设备包括处理器以及存储器:
所述存储器用于存储计算机程序;
所述处理器用于根据所述计算机程序执行上述第一方面提供的所述方法。
第四方面,本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行上述第一方面提供的所述方法。
由此可见,本申请具有如下有益效果:
本申请提供了一种交互式用户词典构建方法,该方法例如可以包括:首先,响应于目标领域的专家提供的属于目标领域的至少一个专业词语,获得第一词典,该第一词典包括第一词语,第一词语包括至少一个专业词语;接着,基于目标领域的至少一个语料库的分词词语和第一词典,获得第二词典,第二词典所包括的第二词语属于分词词语但与第一词语不同;然后,若确定第二词语与第一词语相似,则将第二词语添加到第一词典,获得第三词典;从而,基于第三词典,获得目标领域的目标用户词典。这样,在需要构建目标领域的用户词典时,仅需要专业领域的专家提供少量的专业词汇,即可基于这些专业词汇和该目标领域的语料库自动构建出该目标领域的目标用户词典,无需标注人员对目标领域的语料库进行全量的标注,对于标注人员不具有目标领域的专业知识的情况,节约了对标注人员的培训以及对目标用户词典的审核成本,或者,对于标注人员为目标领域的专家的情况,大大降低了专家的标注工作量,可见,该方法所构建的目标用户词典不仅质量有保障,而且构建效率也较高,为提升NLP中应用的性能提供了方便和可靠的依据。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种交互式用户词典构建方法的流程示意图;
图2为本申请实施例中交互式用户词典构建方法的一实例的流程示意图;
图3为本申请实施例提供的一种交互式用户词典构建装置300的结构示意图;
图4为本申请实施例提供的一种电子设备400的结构示意图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请实施例作进一步详细的说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本申请,并非对本申请的限定。另外,还需要说明的是,为便于描述,附图中仅示出了与本申请相关的部分,并非全部结构。
用户词典是NLP技术中常用的工具。用户词典至少可以包括词语本身,用户词典还可以包括各词语的词频和/或词性等标签,例如,结巴(jieba)分词工具中定义用户词典中每个词语包括词语(word)、词频(word frequency)和词性标签(POS tag)。NLP技术中的应用能够借助用户词典分词提升性能,例如,对于分词这一应用,是指将连续的字序列在不改变字序列顺序的情况下按照一定的规范重新组合成词序列的过程,针对于特定的专业领域,用户词典能提高分词的稳定性以及分词结果的准确性;又例如,对于命名体识别这一应用,是指NLP技术中识别出如人名、机构名、地名、时间等信息单元的过程,用户词典是最直接和有效的命名体识别的手段;对于关键词抽取这一应用,是指将代表文章重要内容的一组词语提取出来的过程,不同专业领域的关键词千差万别,各专业领域的用户词典是最直接和有效抽取相应专业领域的关键词的手段。可见,NLP技术中各种应用基本都需要用户词典来提高应用的性能。
目前,构建某专业领域的用户词典的方式为:标注人员针对该专业领域的语料库通过人工标注的方式,获得该专业领域的用户词典。为了保障所构建的用户词典的质量,需要标注有较高的准确性。一种情况下,当标注人员缺少该专业领域的专业知识时,为了保障用户词典的质量,需要对标注人员进行培训并对标注人员的标注结果进行审核,导致构建该用户词典的成本较高;另一种情况下,当标注人员为专业领域的专家时,虽然能够具备标注所需的专业知识,无需进行高成本的培训和审核,但是,专家通常难以抽出大量时间从事标注的工作。可见,目前构建高质量的用户词典的方式,成本较高。
基于此,本申请实施例提供了一种交互式用户词典构建方法,能够有效借助专业领域的专家的专业知识,又无需专家花费大量的标注时间,还不需要没有专业知识的标注人员的手动标注,即可低成本的构建出高质量的用户词典。具体实现时,该方法可以包括:首先,响应于目标领域的专家提供的属于目标领域的至少一个专业词语,获得第一词典,该第一词典包括第一词语,第一词语包括至少一个专业词语;接着,基于目标领域的至少一个语料库的分词词语和第一词典,获得第二词典,第二词典所包括的第二词语属于分词词语但与第一词语不同;然后,若确定第二词语与第一词语相似,则将第二词语添加到第一词典,获得第三词典;从而,基于第三词典,获得目标领域的目标用户词典。
这样,通过该方法,在需要构建目标领域的用户词典时,仅需要专业领域的专家提供少量的专业词汇,即可基于这些专业词汇和该目标领域的语料库自动构建出该目标领域的目标用户词典,无需标注人员对目标领域的语料库进行全量的标注,对于标注人员不具有目标领域的专业知识的情况,节约了对标注人员的培训以及对目标用户词典的审核成本,或者,对于标注人员为目标领域的专家的情况,大大降低了专家的标注工作量,实现了高效、低成本地构建出高质量的用户词典的目的,从而使得提升NLP中应用的性能提供了方便和可靠的依据。
为便于理解本申请实施例提供的交互式用户词典构建方法的具体实现,下面将结合附图进行说明。
需要说明的是,实施该交互式用户词典构建方法的主体可以为本申请实施例提供的交互式用户词典构建装置,该交互式用户词典构建装置可以承载于电子设备或电子设备的功能模块中。本申请实施例中的电子设备,可以是任意的能够实施本申请实施例中的交互式用户词典构建方法的设备,例如可以是物联网(Internet of Things,IoT)设备。
图1为本申请实施例提供的一种交互式用户词典构建方法流程示意图。该方法可以应用于交互式用户词典构建装置,该交互式用户词典构建装置例如可以是图3所示的交互式用户词典构建装置300,或者,该交互式用户词典构建装置也可以集成于图4所示的电子设备400中(即该方法也可以应用于电子设备400)。
如图1所示,该方法例如可以包括:
S101,响应于目标领域的专家提供的属于所述目标领域的至少一个专业词语,获得第一词典,所述第一词典包括第一词语,所述第一词语包括所述至少一个专业词语。
可以理解的是,在有构建目标领域的目标用户词典的需求时,可以先请该目标领域的专家提供若干专业词语,专家提供的专业词语的过程可以作为对目标用户词典的初始化。
其中,目标领域可以是任意需要构建用户词典的专业领域。目标领域的专家指具有该目标领域的专业知识的人员。针对目标领域构建的用户词典记作该目标领域的目标用户词典。
作为一个示例,第一词典可以仅包括专家提供的专业词语,该示例中第一词语即为专业词语,第一词语可以理解为专家提供的专业词语的统称,是指属于第一词典的一类词语。
作为另一个示例,为了使得构建的目标用户词典更加丰富和全面,还可以对专家提供的专业词语进行扩充,那么,S101中的第一词典例如可以是通过近义词词典对专业词语进行扩充后的词典。该示例中,S101例如可以包括:
响应于所述目标领域的专家提供的所述至少一个专业词语,获得初始词典,所述初始词典包括所述至少一个专业词语;基于近义词词典和所述初始词典,获得所述第一词典,所述第一词语还包括所述至少一个专业词语中的每个专业词语在所述近义词词典中对应的近义词。需要说明的是,如果某个专用词语在近义词词典中存在对应的近义词,那么,第一词语还包括该专业词语以及该专业词语的至少一个近义词;如果某个专用词语在近义词词典中没有对应的近义词,那么,第一词语还包括该专业词语以及该专业词语的0个近义词。
可以理解的是,近义词词典提供近义词检索功能,即,将待查找近义词的专业词语输入到近义词词典,近义词词典检索并输出该专业词语的近义词。本申请实施例中,近义词词典可以包括符合日常使用的、与专业领域无关的近义词,也可以包括根据专业领域指定的、属于专业词语的近义词。
例如,近义词词典可以是Synonyms工具。那么,S101中基于近义词词典和初始词典获得第一词典可以包括:将初始词典中的各专业词语分别输入Synonyms工具,Synonyms工具输出每个专业词语的近义词序列及每个近义词对应的权值,权值表示该近义词与输入的专业词语的相似程度,权值越大表示该近义词与输入的专业词语越相似,权值的最大值为1,权值为1表示该近义词与输入的专业词语完全一致。如此,遍历初始词典中的每个专业词语,从每个专业词语的近义词序列中,选择权值大于权值阈值(如0.8)的近义词加入初始词典,得到第一词典;或者,选择权值最大的预设个数(如5个)的近义词加入初始词典,得到第一词典。第一词典中的词语可以统称为第一词语,第一词语包括各专业词语以及每个专业词语被选中的近义词。
S102,基于所述目标领域的至少一个语料库的分词词语和所述第一词典,获得第二词典,所述第二词典所包括的第二词语属于所述分词词语但与所述第一词语不同。
第二词典可以理解为新词词典,第二词典用于基于语料库扩充第一词典。
目标领域的至少一个语料库的分词词语,可以是基于分词工具(如Jieba)对至少一个语料库进行分词所提取出的词语。
在一些实现方式中,S102例如可以包括:对目标领域的至少一个语料库进行分词处理,得到若干分词词语;接着,比较分词词语与第一词典中的第一词语,将不属于第一词典的分词词语(即与第一词语不同的分词词语)记作第二词语,基于第二词语构建为第二词典。
在另一些实现方式中,在S102之前,还可以获得停用词词典和新词词典,其中,新词词典为空,停用词词典包括停用词,停用词词典中的停用词为确定不应该出现在所述目标领域的用户词典中的词语。这样,S102例如可以包括:对所述至少一个语料库进行分词,获得所述分词词语;从所述分词词语中,获得不属于所述第一词典也不属于所述停用词词典的所述第二词语(或者,也可以理解为获得分词词语中与第一词语和停用词均不同的第二词语);将所述第二词语添加到新词词典,获得所述第二词典。
其中,停用词词典,可以是公开的停用词词典,例如:哈工大停用词表构成的停用词词典,该停用词词典可以包括“似的”“可见”和“甚么”等常见的停用词。或者,停用词词典可以包括公开的停用词词典中的停用词,以及目标领域中的专家根据专业知识与工作经验,手动添加的、一定不属于目标用户词典的词语(例如:“相关”“可不”和“存疑”等词语)。
S103,若确定所述第二词语与所述第一词语相似,则将所述第二词语添加到所述第一词典,获得第三词典。
其中,所述第二词语与所述第一词语相似,可以包括:所述第二词语与至少一个所述第一词语的词距离小于预设的第一阈值。第二词语与第一词语的词距离用于表征第二词语与第一词语的相似度,词距离越小,表示第二词语与第一词语越相似;词距离越大,表示第二词语与第一词语越不同。本申请实施例中,可以预设第一阈值,第一阈值用于界定第二词语中与第一词语相似的词语,可以理解为基于第二词典扩展第一词典的条件。
具体实现时,S103可以包括:将第二词语与第一词语进行词向量化,计算第二词语的词向量与第一词语的词向量的余弦距离,作为第二词语与第一词语的词距离;然后,针对每个第二词语,判断该第二词语与至少一个第一词语的词向量是否小于第一阈值,如果是,则将该第二词语加入到第一词典。其中,词向量化例如可以使用Word2Vec模型实现,即将词语输入Word2Vec模型,该Word2Vec模型输出该词语的词向量。
在另一些实现方式中,如果本申请实施例提供的方法使用了停用词词典,那么,该方法还可以包括:若确定所述第二词语与所有的第一词语均不相似,但所述第二词语与所述停用词词典中的至少一个停用词相似,则将所述第二词语添加到所述停用词词典,获得第四词典(即获得基于语料库更新的停用词词典);若所述第二词语与所有的所述第一词语均不相似,且所述第二词语与所述停用词词典中的所有停用词均不相似,则将所述第二词语保留在所述第二词典中。其中,所述第二词语与所述停用词相似,可以包括:所述第二词语与所述停用词的词距离小于预设的第二阈值。第二阈值可以与第一阈值相同,也可以不同,具体数值可以根据实际需要进行灵活设置。
可以理解的是,S103可以包括:对于第二词典中的每个第二词语,执行下述操作:S11,若第二词语与第一词典中的至少一个第一词语的词距离小于第一阈值,则将该第二词语加入第一词典,否则执行S12;S12,若第二词语与停用词词典中的至少一个停用词的词距离小于第二阈值,则将该第二词语加入停用词词典,否则执行S13;S13,若第二词语与第一词典中的所有第一词语的词距离均不小于第一阈值,而且,第二词语与停用词词典中的所有停用词的词距离均不小于第二阈值,则将第二词语保持在第二词典中。遍历完第二词典中的所有第二词语后,将第一词典更新为第三词典,将停用词词典更新为第四词典,并更新第二词典(下文中的第二词典为经过S103更新的第二词典)。
如此,经过S102~S103实现了基于目标领域的语料库对第一词典的扩充,为后续确定更加丰富的目标用户词典提供了数据基础。
S104,基于所述第三词典,获得所述目标领域的目标用户词典。
作为一个示例,S103例如可以包括:将所述第三词典作为所述目标用户词典。如此,能够最简单、直接地完成对目标领域的目标用户词典的构建。
作为另一个示例,S103例如可以包括:基于所述第三词典中的词语在所述至少一个语料库中的词频,确定所述目标用户词典。例如,统计第三词典中的词语在语料库中出现的词频,然后筛选出词频大于预设的词频阈值的词语,基于这些选中的词语(或者,基于这些选中的词语和词语对应的词频)构建目标用户词典。如此,能够获得关心常用词的场景中适用的目标用户词典。
作为又一个示例,S103例如可以包括:基于所述第三词典中的词语的聚类结果,确定所述目标用户词典。例如,将第三词典中的词语词向量化后进行聚类,然后根据需求筛选属于某些类的词语,基于这些选中的词语构建目标用户词典。如此,能够获得关心某一类或几类关键词的场景中适用的目标用户词典。
在一些实现方式中,为了让构建的目标用户词典更加合理,还可以在基于第三词典构建目标用户词典之前,对第三词典进行完善。那么,S103可以包括:从所述第二词典、所述第三词典和所述第四词典中抽取待标注词语;响应于所述目标领域的专家对所述待标注词语的标注,更新所述第三词典;基于更新后的第三词典,获得所述目标用户词典。上述示例中的“第三词典”即为该实现方式中“更新后的第三词典”。
该实现方式中,可以从第二词典、第三词典和第四词典中,随机抽出一定数量的词语供专家进行标注。例如:分别从第二词典、第三词典和第四词典中随机的抽出60、10和30个共计100个词语,作为待标注词语,由专家进行标注。将专家标注为属于目标领域的词语,放回第三词典;将专家标注为不属于目标领域的词语,放回第四词典;将待标注词语中未标注的词语放回第二词典,需要说明的是,专家可以对不确定是否属于目标领域的词语不予标记。
如此,基于专家对少量词语的标注,完善了用于构建目标用户词典的第三词典,使得构建出更加合理的目标用户词典成为可能。
可见,通过该方法,在需要构建目标领域的用户词典时,仅需要专业领域的专家提供少量的专业词汇,即可基于这些专业词汇和该目标领域的语料库自动构建出该目标领域的目标用户词典,无需标注人员对目标领域的语料库进行全量的标注,对于标注人员不具有目标领域的专业知识的情况,节约了对标注人员的培训以及对目标用户词典的审核成本,或者,对于标注人员为目标领域的专家的情况,大大降低了专家的标注工作量,可见,该方法所构建的目标用户词典不仅质量有保障,而且构建效率也较高,为提升NLP中应用的性能提供了方便和可靠的依据。
为了使得本申请实施例提供的方法更加清楚且易于理解,下面结合图2对该方法的一个具体实例进行说明。该示例以民航飞行员技能全生命周期管理体系(Professionalism Lifecycle Management System,PLM)中九大核心胜任能力评估作为目标领域。该实施例中,以一个或多个学员在校飞行训练期间获得的所有教员评语作为语料库,以飞行教员作为领域专家。
如图2所示,本实施例例如可以包括:
S201,初始化候选用户词典D0、新词词典Dnew和停用词词典Dstop。
飞行教员根据自己的专业知识与工作经验,提供若干个适用于民航九大核心胜任能力评估的专业词语,形成候选用户词典D0,完成对候选用户词典D0的初始化。候选用户词典D0中的专业词语例如可以包括但不限于:着陆、起落、修正偏差。
初始化的Dstop中可以包括:公开的停用词词典中的停用词,例如:哈工大停用词表中例如“似的”“可见”和“甚么”等常见的停用词;可选地,Dstop还可以包括:飞行教员根据自己的专业知识与工作经验手动添加的、一定不属于所要构建的目标用户词典的词语,例如:“相关”“可不”和“存疑”等与目标领域相关的停用词。
新词词典Dnew初始化为空。
S202,使用近义词词典扩充候选用户词典D0,获得扩充后的候选用户词典D1。
以近义词词典为Synonyms工具为例,将D0中的各个词语输入到Synonyms工具,输出该词语的近义词序列及每个近义词对应的权值。例如,向Synonyms工具输入“着陆”,Synonyms工具会按权值从大到小的顺序输出多个近义词以及每个近义词对应的权值,例如可以参见下表1所示:
表1 “着陆”的近义词以及各近义词的权值
然后,从表1中选择权值大于预设的权值阈值的近义词,将选中的近义词扩充到D0。如此,通过遍历D0中的每个词语,将每个词语选中的近义词扩充到D0后,获得通过近义词词典扩充的候选用户词典D1。
S203,利用语料库扩充候选用户词典D1、停用词词典Dstop和新词词典Dnew,分别获得候选用户词典D2、更新后的停用词词典Dstop’和更新后的新词词典Dnew’。
例如,以分词工具为Python版的Jieba分词工具为例,S203可以包括:首先,将语料库使用Python版的Jieba分词工具,以全模式这一分词模式进行分词,获得分词词语。接着,将D1和Dstop中的词语以一行一个词的方式写入一个.txt文件中,以该文件的路径作为参数,使用“jieba.load_userdict”方法加载该文件作为Jieba分词工具的自定义词典。然后,将分词词语中既没在D1出现过又没在Dstop出现过的词语加入新词词典Dnew。接着,使用Word2Vec模型将Dnew、Dstop和D1中的词语进行词向量化处理,并计算Dnew中各词语与D1中各词语的词向量的余弦距离,以及计算Dnew中各词语与Dstop中各词语的词向量的余弦距离,两个词语的词向量的余弦距离可以记作这两个词语的词距离。而且,预设Dnew与D1的词距离阈值1,Dnew与Dstop的词距离阈值2,词距离阈值1和词距离阈值2均为大于0的数。从而,对Dnew中的每个词语,都执行下述判断过程:第一步,判断在D1中是否存在至少一个词语与Dnew中的该词语的词距离小于词距离阈值1,如果是,则将Dnew中的该词语添加到D1中,并对Dnew中下一个词语执行该判断过程,否则执行第二步;第二步,判断在Dstop中是否存在至少一个词语与Dnew中的该词语的词距离小于词距离阈值2,如果是,则将Dnew中的该词语添加到Dstop中,并对Dnew中下一个词语执行该判断过程,否则执行第三步;第三步,若Dnew中的该词语与D1中的所有词语的词距离都不小于词距离阈值1,且Dnew中的该词语与Dstop中的所有词语的词距离都不小于词距离阈值2,则将Dnew中的该词语保持在Dnew中,并对Dnew中下一个词语执行该判断过程。Dnew中的所有词语都执行完上述判断过程后,D1可以记作扩充后的候选用户词典D2,Dstop可以记作更新后的停用词词典Dstop’,Dnew可以记作更新后的新词词典Dnew’。
其中,Jieba的全模式的分词模式,是指将语料库中能够成词的词语都提取为分词词语的分词模式。
S204,飞行教员对候选词词典D2、停用词词典Dstop’和新词词典Dnew’进行标注完善,获得候选用户词典Dc。
从D2、Dstop’和Dnew’中,随机抽出一定数量的词语供飞行教员标注。例如,分别从D2、Dstop’和Dnew’这三个词典中随机抽出30、10、60个共计100个词语,由飞行教员对抽取的100个词语进行标注。这100个词语中,飞行教员标注为可用于民航九大核心胜任能力评估的词语,放入D2;飞行教员标注为不可用于民航九大核心胜任能力评估的词语放入Dstop’;其余未标注的词语放入Dnew’。100个词语标注完成后,可以认为对D2完成了专家标注完善,此时的D2可以记为候选用户词典Dc。
专家标注完善完成后,除了获得候选用户词典Dc,还获得停用词词典Dstop”和Dnew”,Dstop”为Dstop’经过专家标注完善后的停用词词典,Dnew”为Dnew’经过专家标注完善后的新词词典。
S205,根据候选用户词典Dc和设计需求,构建目标用户词典Du。
例如,对于想基于Dc采用最简单直接的构建方法获得目标用户词典Du的情况,S205可以直接将Dc输出为目标用户词典Du。
又例如,对于特别关心常用词的场景,S205也可以统计Dc中的词语在语料库中出现的词频,筛选词频大于预设的词频阈值的词语,将筛选出的词语及其词频输出为目标用户词典Du。
再例如,对于关心某些类的关键词的场景,S205还可以使用Word2Vec模型将Dc中的词语词向量化处理后进行聚类,筛选出聚类结果中某几类词语,将筛选出的词语输出为目标用户词典Du。如,在只需要研究民航九大核心胜任能力中“领导力与团队合作”“工作负荷管理”和“情景意识和信息管理”的内容时,可以通过对Dc的词语进行聚类后选择聚类结果属于上述三方面内容对应的类,基于所选择的类中的词语构建目标用户词典Du。
如此,该方法能够通过目标领域的专家的少量参与,保障所构建的用户词典的质量;而且,目标领域的专家无需全程参与,只需参与用户词典的初始化和完善这两个关键阶段,且仅需要进行少量的标注工作即可,这极大的减少了目标领域的专家的工作负担,同时,有效利用了目标领域的专家的专业知识,从而实现了高效率、高质量的构建用户词典的目的。
参见图3,本申请实施例还提供一种交互式用户词典构建装置300,所述装置300可以包括:第一获得单元301、第二获得单元302、第三获得单元303和第四获得单元304。其中:
第一获得单元301,用于响应于目标领域的专家提供的属于所述目标领域的至少一个专业词语,获得第一词典,所述第一词典包括第一词语,所述第一词语包括所述至少一个专业词语;
第二获得单元302,用于基于所述目标领域的至少一个语料库的分词词语和所述第一词典,获得第二词典,所述第二词典所包括的第二词语属于所述分词词语但与所述第一词语不同;
第三获得单元303,用于若确定所述第二词语与所述第一词语相似,则将所述第二词语添加到所述第一词典,获得第三词典;
第四获得单元304,用于基于所述第三词典,获得所述目标领域的目标用户词典。
可选地,所述第二词语与所述第一词语相似,包括:所述第二词语与至少一个所述第一词语的词距离小于预设的第一阈值。
可选地,所述第四获得单元304,具体用于:
将所述第三词典作为所述目标用户词典;或者,
基于所述第三词典中的词语在所述至少一个语料库中的词频,确定所述目标用户词典;或者,
基于所述第三词典中的词语的聚类结果,确定所述目标用户词典。
可选地,所述第一获得单元301,包括:
第一获得子单元,用于响应于所述目标领域的专家提供的所述至少一个专业词语,获得初始词典,所述初始词典包括所述至少一个专业词语;
第二获得子单元,用于基于近义词词典和所述初始词典,获得所述第一词典,所述第一词语还包括所述至少一个专业词语中的每个专业词语在所述近义词词典中对应的近义词。
可选地,所述装置300还包括:
第五获得单元,用于获得所述目标领域的停用词词典,所述停用词词典中的停用词为不应该出现在所述目标领域的用户词典中的词语。
可选地,所述第二获得单元302,包括:
分词子单元,用于对所述至少一个语料库进行分词,获得所述分词词语;
第三获得子单元,用于从所述分词词语中,获得不属于所述第一词典也不属于所述停用词词典的所述第二词语;
构建子单元,用于基于所述第二词语构建所述第二词典。
可选地,所述装置300还包括:
第六获得单元,用于若确定所述第二词语与所有的所述第一词语均不相似,但所述第二词语与所述停用词词典中至少一个停用词相似,则将所述第二词语添加到所述停用词词典,获得第四词典;
第七获得单元,用于若所述第二词语与所有的所述第一词语均不相似,且所述第二词语与所述停用词词典中所有停用词均不相似,则将所述第二词语保留在所述第二词典中。
可选地,所述第四获得单元304,包括:
抽取子单元,用于从所述第二词典、所述第三词典和所述第四词典中抽取待标注词语;
更新子单元,用于响应于所述目标领域的专家对所述待标注词语的标注,更新所述第三词典;
第四获得子单元,用于基于更新后的所述第三词典,获得所述目标用户词典。
需要说明的是,该装置300的具体实现方式以及达到的技术效果,均可以参见图1或图2所示的方法中的相关描述。
此外,本申请实施例还提供了一种电子设备400,如图4所示,所述电子设备400包括处理器401以及存储器402:
所述存储器402用于存储计算机程序;
所述处理器401用于根据所述计算机程序执行图1或图2提供的方法。
此外,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行本申请实施例提供的方法。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如只读存储器(英文:read-only memory,ROM)/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者诸如路由器等网络通信设备)执行本申请各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例和设备实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的设备及系统实施例仅仅是示意性的,其中作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述仅是本申请的优选实施方式,并非用于限定本申请的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (10)

1.一种交互式用户词典构建方法,其特征在于,包括:
响应于目标领域的专家提供的属于所述目标领域的至少一个专业词语,获得第一词典,所述第一词典包括第一词语,所述第一词语包括所述至少一个专业词语;
基于所述目标领域的至少一个语料库的分词词语和所述第一词典,获得第二词典,所述第二词典所包括的第二词语属于所述分词词语但与所述第一词语不同;
若确定所述第二词语与所述第一词语相似,则将所述第二词语添加到所述第一词典,获得第三词典;
基于所述第三词典,获得所述目标领域的目标用户词典。
2.根据权利要求1所述的方法,其特征在于,所述第二词语与所述第一词语相似,包括:所述第二词语与至少一个一词语的词距离小于预设的第一阈值。
3.根据权利要求1所述的方法,其特征在于,所述基于所述第三词典,获得所述目标领域的目标用户词典,包括:
将所述第三词典作为所述目标用户词典;或者,
基于所述第三词典中的词语在所述至少一个语料库中的词频,确定所述目标用户词典;或者,
基于所述第三词典中的词语的聚类结果,确定所述目标用户词典。
4.根据权利要求1所述的方法,其特征在于,所述响应于目标领域的专家提供的属于所述目标领域的至少一个专业词语,获得第一词典,包括:
响应于所述目标领域的专家提供的所述至少一个专业词语,获得初始词典,所述初始词典包括所述至少一个专业词语;
基于近义词词典和所述初始词典,获得所述第一词典,所述第一词语还包括所述至少一个专业词语中的每个专业词语在所述近义词词典中对应的近义词。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述方法还包括:
获得所述目标领域的停用词词典,所述停用词词典中的停用词为不应该出现在所述目标领域的用户词典中的词语。
6.根据权利要求5所述的方法,其特征在于,所述基于所述目标领域的至少一个语料库的分词词语和所述第一词典,获得第二词典,包括:
对所述至少一个语料库进行分词,获得所述分词词语;
从所述分词词语中,获得不属于所述第一词典也不属于所述停用词词典的所述第二词语;
基于所述第二词语构建所述第二词典。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
若确定所述第二词语与所有的所述第一词语均不相似,但所述第二词语与所述停用词词典中的至少一个停用词相似,则将所述第二词语添加到所述停用词词典,获得第四词典;
若所述第二词语与所有的所述第一词语均不相似,且所述第二词语与所述停用词词典中的所有停用词均不相似,则将所述第二词语保留在所述第二词典中。
8.根据权利要求7所述的方法,其特征在于,所述基于所述第三词典,获得所述目标领域的目标用户词典,包括:
从所述第二词典、所述第三词典和所述第四词典中抽取待标注词语;
响应于所述目标领域的专家对所述待标注词语的标注,更新所述第三词典;
基于更新后的所述第三词典,获得所述目标用户词典。
9.一种交互式用户词典构建装置,其特征在于,包括:
第一获得单元,用于响应于目标领域的专家提供的属于所述目标领域的至少一个专业词语,获得第一词典,所述第一词典包括第一词语,所述第一词语包括所述至少一个专业词语;
第二获得单元,用于基于所述目标领域的至少一个语料库的分词词语和所述第一词典,获得第二词典,所述第二词典所包括的第二词语属于所述分词词语但与所述第一词语不同;
第三获得单元,用于若确定所述第二词语与所述第一词语相似,则将所述第二词语添加到所述第一词典,获得第三词典;
第四获得单元,用于基于所述第三词典,获得所述目标领域的目标用户词典。
10.一种电子设备,其特征在于,所述电子设备包括处理器以及存储器:
所述存储器用于存储计算机程序;
所述处理器用于根据所述计算机程序执行权利要求1-8任一项所述的方法。
CN202310374036.5A 2023-04-10 2023-04-10 交互式用户词典构建方法、装置和设备 Pending CN116108834A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310374036.5A CN116108834A (zh) 2023-04-10 2023-04-10 交互式用户词典构建方法、装置和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310374036.5A CN116108834A (zh) 2023-04-10 2023-04-10 交互式用户词典构建方法、装置和设备

Publications (1)

Publication Number Publication Date
CN116108834A true CN116108834A (zh) 2023-05-12

Family

ID=86262392

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310374036.5A Pending CN116108834A (zh) 2023-04-10 2023-04-10 交互式用户词典构建方法、装置和设备

Country Status (1)

Country Link
CN (1) CN116108834A (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07146868A (ja) * 1993-11-22 1995-06-06 Canon Inc 自然言語処理装置
JP2006107143A (ja) * 2004-10-05 2006-04-20 Infocom Corp 学習型辞書管理システム
CN103838737A (zh) * 2012-11-21 2014-06-04 大连灵动科技发展有限公司 一种提高向量距离分类质量的方法
CN107729374A (zh) * 2017-09-13 2018-02-23 厦门快商通科技股份有限公司 一种情感词典的扩充方法及文本情感识别方法
CN109284397A (zh) * 2018-09-27 2019-01-29 深圳大学 一种领域词典的构建方法、装置、设备及存储介质
CN111325018A (zh) * 2020-01-21 2020-06-23 上海恒企教育培训有限公司 一种基于web检索和新词发现的领域词典构建方法
CN114266256A (zh) * 2021-12-21 2022-04-01 深圳供电局有限公司 一种领域新词的提取方法及系统
CN114556328A (zh) * 2019-12-31 2022-05-27 深圳市欢太科技有限公司 数据处理方法、装置、电子设备和存储介质
CN115563242A (zh) * 2022-09-21 2023-01-03 中国第一汽车股份有限公司 汽车信息筛选方法、装置、电子设备及存储介质
CN115730593A (zh) * 2021-08-27 2023-03-03 上海科技发展有限公司 基于神经网络的学科领域词库构建方法、系统、终端及介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07146868A (ja) * 1993-11-22 1995-06-06 Canon Inc 自然言語処理装置
JP2006107143A (ja) * 2004-10-05 2006-04-20 Infocom Corp 学習型辞書管理システム
CN103838737A (zh) * 2012-11-21 2014-06-04 大连灵动科技发展有限公司 一种提高向量距离分类质量的方法
CN107729374A (zh) * 2017-09-13 2018-02-23 厦门快商通科技股份有限公司 一种情感词典的扩充方法及文本情感识别方法
CN109284397A (zh) * 2018-09-27 2019-01-29 深圳大学 一种领域词典的构建方法、装置、设备及存储介质
CN114556328A (zh) * 2019-12-31 2022-05-27 深圳市欢太科技有限公司 数据处理方法、装置、电子设备和存储介质
CN111325018A (zh) * 2020-01-21 2020-06-23 上海恒企教育培训有限公司 一种基于web检索和新词发现的领域词典构建方法
CN115730593A (zh) * 2021-08-27 2023-03-03 上海科技发展有限公司 基于神经网络的学科领域词库构建方法、系统、终端及介质
CN114266256A (zh) * 2021-12-21 2022-04-01 深圳供电局有限公司 一种领域新词的提取方法及系统
CN115563242A (zh) * 2022-09-21 2023-01-03 中国第一汽车股份有限公司 汽车信息筛选方法、装置、电子设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
朱姝姍等: "利用开源词向量扩充图情领域术语词", 《乐山师范学院学报》, vol. 37, no. 8, pages 53 - 58 *
朱玲等: "基于词向量计算的中医症状术语相似度研究", 《信息化论坛》, pages 28 - 31 *

Similar Documents

Publication Publication Date Title
CN111222305B (zh) 一种信息结构化方法和装置
US10643182B2 (en) Resume extraction based on a resume type
US20210342371A1 (en) Method and Apparatus for Processing Knowledge Graph
CN111428488A (zh) 简历数据信息解析及匹配方法、装置、电子设备及介质
CN109933647A (zh) 确定描述信息的方法、装置、电子设备和计算机存储介质
CN111930792B (zh) 数据资源的标注方法、装置、存储介质及电子设备
JP6663826B2 (ja) 計算機及び応答の生成方法
WO2021129123A1 (zh) 语料数据处理方法、装置、服务器和存储介质
US11461613B2 (en) Method and apparatus for multi-document question answering
Ariouat et al. A two-step clustering approach for improving educational process model discovery
CN113627797B (zh) 入职员工画像生成方法、装置、计算机设备及存储介质
CN112925883B (zh) 搜索请求处理方法、装置、电子设备及可读存储介质
CN116227466B (zh) 一种语义不同措辞相似的句子生成方法、装置及设备
CN111475645B (zh) 知识点标注方法、装置及计算机可读存储介质
CN116109732A (zh) 图像标注方法、装置、处理设备及存储介质
CN111813993A (zh) 视频内容的拓展方法、装置、终端设备及存储介质
CN110489744B (zh) 一种语料的处理方法、装置、电子设备和存储介质
WO2023029354A1 (zh) 文本信息提取方法、装置、存储介质及计算机设备
JP2019144706A (ja) 関係性推定モデル学習装置、方法、及びプログラム
Lhasiw et al. A bidirectional LSTM model for classifying Chatbot messages
CN108280063B (zh) 基于半监督学习的语义分析方法及系统
CN112559711A (zh) 一种同义文本提示方法、装置及电子设备
CN111597302B (zh) 文本事件的获取方法、装置、电子设备及存储介质
CN117747087A (zh) 问诊大模型的训练方法、基于大模型的问诊方法和装置
CN116402166B (zh) 一种预测模型的训练方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20230512

RJ01 Rejection of invention patent application after publication