CN110852082A - 同义词的确定方法及装置 - Google Patents

同义词的确定方法及装置 Download PDF

Info

Publication number
CN110852082A
CN110852082A CN201911013160.9A CN201911013160A CN110852082A CN 110852082 A CN110852082 A CN 110852082A CN 201911013160 A CN201911013160 A CN 201911013160A CN 110852082 A CN110852082 A CN 110852082A
Authority
CN
China
Prior art keywords
text
specified
word
classifier model
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911013160.9A
Other languages
English (en)
Other versions
CN110852082B (zh
Inventor
伯仲璞
王道广
于政
石慧江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Mininglamp Software System Co ltd
Original Assignee
Beijing Mininglamp Software System Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Mininglamp Software System Co ltd filed Critical Beijing Mininglamp Software System Co ltd
Priority to CN201911013160.9A priority Critical patent/CN110852082B/zh
Publication of CN110852082A publication Critical patent/CN110852082A/zh
Application granted granted Critical
Publication of CN110852082B publication Critical patent/CN110852082B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种同义词的确定方法及装置,上述方法包括:对至少一个指定词语进行分类,得到多个指定分类;使用类型识别模型对待识别的文本进行识别,从所述多个指定分类中确定与所述待识别的文本中的第一文本对应的第一指定分类;使用指定的分类器模型对所述第一文本进行识别,获取所述分类器模型输出的所述第一指定分类下的与所述第一文本对应的第一指定词语;对与所述第一文本对应的多个所述第一指定词语进行检验,将所述第一文本确定为校验通过的第一指定词语的同义词。通过本发明,解决了相关技术中存在的同义词的确定过程成本高、效率低的技术问题。

Description

同义词的确定方法及装置
技术领域
本发明涉及通信领域,具体而言,涉及一种同义词的确定方法及装置。
背景技术
得益于互联网络的广泛普及、数据存储技术和计算机运算能力的飞速发展,当今学术界和工业界人工智能技术日趋成熟,为各行业生产力提升提供了巨大助力。自然语言处理(Nature Language Processing,简称为 NLP)技术是人工智能领域的重要分支,为搜索、推荐、问答系统和文本信息抽取等人工智能落地场景提供技术驱动,自然语言处理技术的发展是上述各人工智能系统助力生产生活的必要前提。
同义词库是自然语言处理常见的基础数据,也是多项技术(如:文本相似度计算、实体消歧、实体对齐等)的必需数据源。同义词库多用于数据处理,因而其对统计机器学习和深度学习等以数据为基础的人工智能技术影响重大,同义词库的质量往往能够对技术方案最终效果产生巨大影响。
当前,学术界和工业界都整理并开源了优秀的通用领域同义词库,极大的方便了下游自然语言处理任务。但特定领域的同义词库因其高成本、适用范围窄及领域知识门槛较高等原因,并未有足够开源词库资源。
在相关技术中,存在以下用于得到同义词库的方法:
方法一:专家整理,即由领域内的专家整理得到该领域的同义词库。通过该方法得到的同义词库通常具有较高的数据质量,但显而易见的是该方法成本极高:首先,为保证词库质量,领域专家需要在该领域内有较长的工作年限,对该领域有深入了解;其次为保证词库广度,往往需要多位专家共同整理词库;最后,该整理工作的根据业务复杂程度一般需要至少一周时间。
方法二:借助特殊数据。特殊数据指搜索引擎的搜索数据,问答系统的问答数据等特定类型业务场景下产生/获得的业务方独有数据。此类数据通常由业务方拥有,一般组织、机构和个人无法获得。该方法因其数据量巨大、数据质量高往往能够获得较好效果。但是方法二的所用数据门槛较高,通常仅具有特定互联网业务的组织、机构可以获得,无法适用于传统行业,通用性较差。
方法三:图挖掘。该方法首先需要从文本库构建各单词的近邻词集合,然后运用图计算技术挖掘同义词对。例如,基于词近邻集合构造数据图,进而使用图挖掘算法,挖掘出近邻集合相似度较高的两个词作为同义词。该方法本质上基于数据统计,能够挖掘出常见同义词,但对尾部同义词(即出现频率较低、不常用的同义词)的挖掘效果十分有限。
方法四:词向量,即word2vec方法。word2vec方法通过神经网络训练,把文本中的词映射成为指定纬度向量空间中的向量同时使得含义相近的词在向量空间中具有较近的距离。该方法首先借助word2vec及其改进技术把文本数据转变为可计算向量。然后使用其他机器学习算法或直接计算向量相似度实现同义词挖掘。词向量技术把相似词映射到向量空间中的相近位置,但此技术中的“相似”与同义词的“同义”并非同一概念,因而基于词向量的发现往往有较多误识别。如词向量很可能会把“北京”和“纽约”映射到十分相近的位置,但这并非一组同义词。
针对相关技术中,同义词的确定过程成本高、效率低等技术问题,尚未提出技术方案。
发明内容
本发明实施例提供了一种同义词的确定方法及装置,以至少解决相关技术中存在的同义词的确定过程成本高、效率低的技术问题。
根据本发明的一个实施例,提供了一种同义词的确定方法,包括:
对至少一个指定词语进行分类,得到多个指定分类;
使用类型识别模型对待识别的文本进行识别,从所述多个指定分类中确定与所述待识别的文本中的第一文本对应的第一指定分类;
使用指定的分类器模型对所述第一文本进行识别,获取所述分类器模型输出的所述第一指定分类下的与所述第一文本对应的第一指定词语;
对与所述第一文本对应的多个所述第一指定词语进行检验,将所述第一文本确定为校验通过的第一指定词语的同义词。
可选地,所述使用类型识别模型对待识别的文本进行识别,从所述多个指定分类中确定与所述待识别的文本中的第一文本对应的第一指定分类,包括:从所述待识别的文本中提取所述第一文本;将所述第一文本输入到所述类型识别模型中;获取所述类型识别模型的输出结果,其中,所述输出结果包括所述第一指定分类。
可选地,在所述使用指定的分类器模型对所述第一文本进行识别,获取所述分类器模型输出的所述第一指定分类下的与所述第一文本对应的第一指定词语之前,所述方法,还包括:建立与所述多个指定分类对应的多个任务,其中,所述多个任务与所述多个指定分类一一对应;建立用于执行所述多个任务的第二分类器模型;对所述第二分类器模型进行训练,得到训练完成后的所述第二分类器模型。
可选地,所述使用指定的分类器模型对所述第一文本进行识别,获取所述分类器模型输出的所述第一指定分类下的与所述第一文本对应的第一指定词语,包括:将所述第一文本输入到训练完成后的所述第二分类器模型中;获取所述第二分类器模型输出的所述第一指定词语。
可选地,所述对与所述第一文本对应的多个所述第一指定词语进行检验,将所述第一文本确定为校验通过的第一指定词语的同义词,包括:将所述第一文本以及所述分类器模型输出的所述第一指定词语对应保存在记录文件中;统计所述第一指定词语中的每个词语在所述记录文件中的出现频数;将与所述第一文本对应的出现频数最大的第二指定词语作为待校验的词语;对所述第二指定词语进行校验,在所述第二指定词语校验通过的情况下,将所述第一文本确定为所述第二指定词语的同义词。
根据本发明的一个实施例,提供了一种同义词的确定装置,包括:
分类模块,用于对至少一个指定词语进行分类,得到多个指定分类;
第一识别模块,用于使用类型识别模型对待识别的文本进行识别,从所述多个指定分类中确定与所述待识别的文本中的第一文本对应的第一指定分类;
第二识别模块,用于使用指定的分类器模型对所述第一文本进行识别,获取所述分类器模型输出的所述第一指定分类下的与所述第一文本对应的第一指定词语;
检验模块,用于对与所述第一文本对应的多个所述第一指定词语进行检验,将所述第一文本确定为校验通过的第一指定词语的同义词。
可选地,所述第一识别模块,还用于:从所述待识别的文本中提取所述第一文本;将所述第一文本输入到所述类型识别模型中;获取所述类型识别模型的输出结果,其中,所述输出结果包括所述第一指定分类。
可选地,所述装置,还包括处理模块,用于:建立与所述多个指定分类对应的多个任务,其中,所述多个任务与所述多个指定分类一一对应;建立用于执行所述多个任务的第二分类器模型;对所述第二分类器模型进行训练,得到训练完成后的所述第二分类器模型。
可选地,所述第二识别模块,还用于:将所述第一文本输入到训练完成后的所述第二分类器模型中;获取所述第二分类器模型输出的所述第一指定词语。
可选地,所述检验模块,还用于:将所述第一文本以及所述分类器模型输出的所述第一指定词语对应保存在记录文件中;统计所述第一指定词语中的每个词语在所述记录文件中的出现频数;将与所述第一文本对应的出现频数最大的第二指定词语作为待校验的词语;对所述第二指定词语进行校验,在所述第二指定词语校验通过的情况下,将所述第一文本确定为所述第二指定词语的同义词。
根据本发明的又一个实施例,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
根据本发明的又一个实施例,还提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。
通过本发明,对至少一个指定词语进行分类,得到多个指定分类;使用类型识别模型对待识别的文本进行识别,从所述多个指定分类中确定与所述待识别的文本中的第一文本对应的第一指定分类;使用指定的分类器模型对所述第一文本进行识别,获取所述分类器模型输出的所述第一指定分类下的与所述第一文本对应的第一指定词语;对与所述第一文本对应的多个所述第一指定词语进行检验,将所述第一文本确定为校验通过的第一指定词语的同义词。因此,可以解决相关技术中存在的同义词的确定过程成本高、效率低的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的同义词的确定方法的流程图;
图2是根据本发明另一实施例的同义词的确定方法的流程图;
图3为根据本发明实施例的对数据进行标注的示意图;
图4为根据本发明实施例的NER模型的结构图;
图5为根据本发明实施例的bert模型的结构示意图;
图6是根据本发明实施例的根据本发明实施例的同义词的确定装置的结构框图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
以下对本申请实施例中使用到的术语进行解释:
Figure RE-GDA0002367942940000061
表1.本申请实施例中使用到的术语及对照含义
实施例1
本发明实施例提供了一种同义词的确定方法。图1是根据本发明实施例的同义词的确定方法的流程图,如图1所示,包括:
步骤S102,对至少一个指定词语进行分类,得到多个指定分类;
步骤S104,使用类型识别模型对待识别的文本进行识别,从所述多个指定分类中确定与所述待识别的文本中的第一文本对应的第一指定分类;
步骤S106,使用指定的分类器模型对所述第一文本进行识别,获取所述分类器模型输出的所述第一指定分类下的与所述第一文本对应的第一指定词语;
步骤S108,对与所述第一文本对应的多个所述第一指定词语进行检验,将所述第一文本确定为校验通过的第一指定词语的同义词。
通过本发明,对至少一个指定词语进行分类,得到多个指定分类;使用类型识别模型对待识别的文本进行识别,从所述多个指定分类中确定与所述待识别的文本中的第一文本对应的第一指定分类;使用指定的分类器模型对所述第一文本进行识别,获取所述分类器模型输出的所述第一指定分类下的与所述第一文本对应的第一指定词语;对与所述第一文本对应的多个所述第一指定词语进行检验,将所述第一文本确定为校验通过的第一指定词语的同义词。因此,可以解决相关技术中存在的同义词的确定过程成本高、效率低的技术问题,降低了同义词挖掘的成本,并且能够快速、高效地实现同义词的挖掘。
需要说明的是,上述实施例中的指定词语即标准词,得到的多个分类即多个标准词分类。
在本申请的一种可选实施例中,所述使用类型识别模型对待识别的文本进行识别,从所述多个指定分类中确定与所述待识别的文本中的第一文本对应的第一指定分类,包括:从所述待识别的文本中提取所述第一文本;将所述第一文本输入到所述类型识别模型中;获取所述类型识别模型的输出结果,其中,所述输出结果包括所述第一指定分类。
在本申请的一种可选实施例中,在所述使用指定的分类器模型对所述第一文本进行识别,获取所述分类器模型输出的所述第一指定分类下的与所述第一文本对应的第一指定词语之前,所述方法,还包括:建立与所述多个指定分类对应的多个任务,其中,所述多个任务与所述多个指定分类一一对应;建立用于执行所述多个任务的第二分类器模型;对所述第二分类器模型进行训练,得到训练完成后的所述第二分类器模型。
在本申请的一种可选实施例中,所述使用指定的分类器模型对所述第一文本进行识别,获取所述分类器模型输出的所述第一指定分类下的与所述第一文本对应的第一指定词语,包括:将所述第一文本输入到训练完成后的所述第二分类器模型中;获取所述第二分类器模型输出的所述第一指定词语。
需要说明的是,在上述实施例中,由于构建了用于处理多个任务的第二分类器模型,从而降低了模型训练的难度,提高了处理效率。
在本申请的一种可选实施例中,所述对与所述第一文本对应的多个所述第一指定词语进行检验,将所述第一文本确定为校验通过的第一指定词语的同义词,包括:将所述第一文本以及所述分类器模型输出的所述第一指定词语对应保存在记录文件中;统计所述第一指定词语中的每个词语在所述记录文件中的出现频数;将与所述文本对应的出现频数最大的第二指定词语作为待校验的词语;对所述第二指定词语进行校验,在所述第二指定词语校验通过的情况下,将所述第一文本确定为所述第二指定词语的同义词。
需要说明的是,在上述实施例中,由于对第二指定词语进行校验,并且仅在所述第二指定词语校验通过的情况下,将所述第一文本确定为所述第二指定词语的同义词,从而提高了同义词确定的准确性。
在本申请的一种可选实施例中,在所述使用指定的分类器模型对所述第一文本进行识别,获取所述分类器模型输出的所述第一指定分类下的与所述第一文本对应的第一指定词语之前,所述方法,还包括:建立与所述多个指定分类对应的多个第一分类器模型,其中,所述多个指定分类与所述多个第一分类器模型一一对应;分别对所述多个第一分类器模型进行训练,得到训练完成后的所述多个第一分类器模型。
在本申请的一种可选实施例中,所述使用指定的分类器模型对所述第一文本进行识别,获取所述分类器模型输出的所述第一指定分类下的与所述第一文本对应的第一指定词语,包括:将所述第一文本输入到训练完成后的与所述第一指定分类对应的第三分类器模型中,其中,所述多个第一分类器模型包括所述第三分类器模型;获取所述第三分类器模型输出的所述第一指定词语。
需要说明的是,在上述实施例中,可以针对每个指定分类建立对应的分类器模型,从而提高了灵活性。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如 ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
下面以汽车故障检修为业务场景作为一个可选的实施例,进行具体说明:
在上述实施例中,实现了在给定标准词的前提下从语料库中挖掘标准词对应的同义词。该技术方案包括:首先,梳理标准词并归纳得到标准词分类,在后续步骤中把标准词和标准词分类作为相互关联但粒度不同的两层标签体系。其后,把同义词挖掘任务转换为两个子任务:1,针对粗粒度标准词分类标签的命名实体识别任务;2,针对细粒度标准词标签的文本分类任务。最后,综合文本分类结果和命名实体识别结果经过算法筛选后得到同义词对,实现同义词挖掘。
根据本发明的另一实施例,提供了一种同义词的确定方法。请参见图 2,图2是根据本发明另一实施例的同义词的确定方法的流程图。下面结合图2所示的流程图对本发明示例的技术方案进行详细说明,本发明示例的技术方案如下:
步骤1:确定标准词。
根据业务需求确定需要挖掘其同义词的标准词列表,标准词列表如表 1所示。可选地,在步骤1中,可以由业务人员给出标准词列表,后续步骤将以标准词为起点,从文本库中挖掘各标准词对应若干同义词。
标准词 加速无力 异响 发动机总成 制动总泵
表1.标准词列表
步骤2:标准词分类
在步骤2中,对标准词类表中的标准词进行概念归纳,得到标准词分类,如表2所示:
Figure RE-GDA0002367942940000101
表2.标准词分类
步骤3:命名实体识别
本步骤中,定义一个命名实体识别(Named-entity recognition,简称为NER)任务。对于多个标准词分类Φ=C1,C2,...CM,其中C1,C2,...CM为标准词分类,从检修记录文本识别命名实体(即上述实施例中的“第一指定分类”)。通过该步骤,可以从待识别的文本中抽取第一文本,并通过上述命名实体任务识别出该第一文本对应的标准词分类,例如,可以从待识别的文本中抽取出该文本中用于描述失效模式这一标准词分类的第一文本。表3中显示了对于从检修记录文本:“客户反映行驶过程中踩油门无法有效提速”中抽取的文本:“踩油门无法有效提速”,NER识别结果为:失效模式。
Figure RE-GDA0002367942940000102
表3.NER识别结果
在步骤3中,为完成命名实体识别任务需要训练一个NER模型。获取该模型需要三步:1、训练数据标注;2,模型结构定义;3,模型训练。
可选地,数据标注可以使用“BIEO”标注规范,即对文本中的每个字符根据字符含义及位置将其标注为实体开始(Begin),实体内(Inside),实体结束(End)和实体外(Outside)中的一种。图3为根据本发明实施例的对数据进行标注的示意图。如图3所示,标注出数据中实体的开头、中间、结尾及非实体,其中,“0”标注表示对应的字符为实体的外部字符,“失效模式类B”标注表示对应的字符为“失效模式”类实体的开始字符,“失效模式类I”标注表示对应的字符为“失效模式”类实体的内部字符,“失效模式类E”标注表示对应的字符为“失效模式”类实体的结束字符。
在对训练数据进行标注后,使用标注后的训练数据对NER模型进行训练,即使用NER模型从训练数据中学习标注从而使模型具有标注能力。
可选地,NER模型的结构如图4所示。图4为根据本发明实施例的NER 模型的结构图。
如图4中所示,字_0,字_1,字-n表示句子中的第1,2,…,n个字,通过字嵌入层的字嵌入处理后获得每个字的向量表示,然后使用双向长短期记忆模型(BiLSTM)建模文本上下文信息进而得到修正的字嵌入,最后通过条件随机场(CRF)层的概率调整机制输出每个字对应的各个标签(即图3中的标注:B、I、O、E)的概率分布,将分布中的最大概率对应的标签确定为每个字对应的预测标签。最后,根据识别得到的BIEO标签序列得到实体并作为文本实体抽取结果。
步骤4:文本分类
可选地,在步骤4中,可以定义为一个多任务(multi-task)文本分类任务,并训练得到一个用于执行多任务的分类器模型。
设标准词分类集合Φ共有M个标准词分类,即Φ=C1,C2,...CM,将每个标准词分类看作一个标签组,则第i个标签组Ωi下共有Ni个标准词(即上是实施例中的标签),即
Figure RE-GDA0002367942940000111
定义分类任务Taski:以检修记录文本作为样本数据,从Ωi中选择合适标准词Si,j作为样本标签,训练分类器fi
fi(text)=text→ω,其中ω∈Ωi
在训练过程中,同时对M个标准词分类对应的M个分类任务进行训练,得到多任务分类器fi。由于多任务分类器fi用于执行多任务,从而通过对多任务学习并训练得到多任务分类器fi,能够降低模型训练难度。
可选地,可以使用bert(Bidirectional Encoder Representations fromTransformers)模型作为分类器,具体模型结构如图5所示。图5 为根据本发明实施例的bert模型的结构示意图。
通过步骤4,对文本进行分类可以识别得到文本对应的标准词,表4 中显示了文本对应各个分类任务下的分类结果。
Figure RE-GDA0002367942940000121
表4.文本分类结果
NER识别得到的结果为抽取的文本所对应的标准词分类,例如,实体 (即上述实施例中的第一文本)“踩油门无法有效提速”对应的实体类别 (即上述实施例中的标准词分类)为“失效模式”,经过步骤4处理后,得到该文本对应的“失效模式”类别下的标准词为“加速无力”,则“加速无力”-“踩油门无法有效提速”为一疑似同义词对。可选地,在本申请的另一实施例中,上述文本对应的标准词分类为“零部件”,并且对应的该分类下的标准词为“其他”。
经过步骤3和步骤4处理后,可以获得若干意思同义词对,如表5所示。
Figure RE-GDA0002367942940000122
表5.获取到的疑似同义词对
步骤5:入库筛选
步骤5用于筛选步骤4中的疑似同义词对。
将文本库中每一条记录文本分别放入步骤3和步骤4训练得到的文本分类器模型和NER模型中,得到与抽取的文本对应的疑似标准词,将该抽取的文本和疑似标准词记录到中间结果中。中间结果的示例形式如表6所示:
Figure RE-GDA0002367942940000131
表6.记录的中间结果
可选地,中间结果在一次同义词挖掘任务完成后以文件的形式保存在硬盘,当下一次挖掘任务开始时,读取中间结果并更新。由于在中间结果中保存每次挖掘得到的疑似标准词,从而使上述实施例支持增量挖掘,提高了挖掘的准确性。
随着记录文本数量的增加,中间结果文件中各实体(即上述实施例中的抽取的文本)对应的疑似标准词的频数也随之增加,当频数达到预先设定的同义词频数阈值T-value时,将该疑似同义词对(即抽取的文本以及上述频数超过阈值的疑似标准词)从中间结果文件中取出,并进入步骤6。
步骤6:标签对齐检验。
由于中间结果可能出现一个实体在不同记录文本中有不同的疑似标准词的情况,步骤6用于对疑似标准词进行校验,即标签对齐。
作为一个示例,实体E有N个疑似标准词,其频数分别为n1,n2,...nN,总频数为nall=∑(n1,n2,...nN)。取频数最大的疑似标准词作为实体E的待检验标准词,并做如下假设检验:
根据是否为待检验标准词把疑似标准词X分为两组,组内样本数分别为ntest=max(n1,n2,..nN)和nother=nall-ntest。假设实体E的疑似标准词X服从二项分布,即:
X~B(nall,p)
其中,p为待检验疑似标准词为标准词的概率。
基于上述分布,做原假设:
H0:p>ptest
其中,ptest为设定的概率阈值(例如,取0.8)。
根据上述假设,构建Z统计量:
Figure RE-GDA0002367942940000141
上式中,
Figure RE-GDA0002367942940000142
为样本均值(即疑似标准词X的均值),S为样本方差(即疑似标准词X的方差),使用Z统计量做单侧假设检验,置信度取95%。
如果上述检验通过,则完成标签对齐,即确认上述通过检验的疑似标准词为上述实体对应的标准词,并将上述实体写入到该标准词对应的同义词库中,否则拒绝入库并把上述实体和疑似标准词对放回至中间结果中。
通过上述检验步骤,降低了同义词库挖掘的人力成本和数据成本。
通过本发明的上述实施例,无需大量专家知识,降低了同义词挖掘的数据成本,并且在节省人力成本的同时缩短了同义词库构建周期;并且上述实施例所应用的数据类型不具特殊性(特殊数据如搜索数据、问答数据等),即可以在多数生产场景下都能够满足需求,具有更高的通用性;以及能够在使用更少数据的前提下达到最优的挖掘准确率和召回率。
实施例2
根据本发明的另一个实施例,提供了一种同义词的确定装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图6是根据本发明实施例的同义词的确定装置的结构框图,该装置包括:
分类模块62,用于对至少一个指定词语进行分类,得到多个指定分类;
第一识别模块64,用于使用类型识别模型对待识别的文本进行识别,从所述多个指定分类中确定与所述待识别的文本中的第一文本对应的第一指定分类;
第二识别模块66,用于使用指定的分类器模型对所述第一文本进行识别,获取所述分类器模型输出的所述第一指定分类下的与所述第一文本对应的第一指定词语;
检验模块68,用于对与所述第一文本对应的多个所述第一指定词语进行检验,将所述第一文本确定为校验通过的第一指定词语的同义词。
通过本发明,对至少一个指定词语进行分类,得到多个指定分类;使用类型识别模型对待识别的文本进行识别,从所述多个指定分类中确定与所述待识别的文本中的第一文本对应的第一指定分类;使用指定的分类器模型对所述第一文本进行识别,获取所述分类器模型输出的所述第一指定分类下的与所述第一文本对应的第一指定词语;对与所述第一文本对应的多个所述第一指定词语进行检验,将所述第一文本确定为校验通过的第一指定词语的同义词。因此,可以解决相关技术中存在的同义词的确定过程成本高、效率低的技术问题,降低了同义词挖掘的成本,并且能够快速、高效地实现同义词的挖掘。
在本发明的一可选实施例中,所述第一识别模块64,还用于:从所述待识别的文本中提取所述第一文本;将所述第一文本输入到所述类型识别模型中;获取所述类型识别模型的输出结果,其中,所述输出结果包括所述第一指定分类。
在本发明的一可选实施例中,所述装置,还包括处理模块,用于:建立与所述多个指定分类对应的多个任务,其中,所述多个任务与所述多个指定分类一一对应;建立用于执行所述多个任务的第二分类器模型;对所述第二分类器模型进行训练,得到训练完成后的所述第二分类器模型。
在本发明的一可选实施例中,所述第二识别模块66,还用于:将所述第一文本输入到训练完成后的所述第二分类器模型中;获取所述第二分类器模型输出的所述第一指定词语。
在本发明的一可选实施例中,所述检验模块68,还用于:将所述第一文本以及所述分类器模型输出的所述第一指定词语对应保存在记录文件中;统计所述第一指定词语中的每个词语在所述记录文件中的出现频数;将与所述第一文本对应的出现频数最大的第二指定词语作为待校验的词语;对所述第二指定词语进行校验,在所述第二指定词语校验通过的情况下,将所述第一文本确定为所述第二指定词语的同义词。
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。
本发明的实施例还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述计算机可读存储介质可以包括但不限于: U盘、只读存储器(Read-Only Memory,简称为ROM)、随机存取存储器 (Random Access Memory,简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
本发明的实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
可选地,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种同义词的确定方法,其特征在于,包括:
对至少一个指定词语进行分类,得到多个指定分类;
使用类型识别模型对待识别的文本进行识别,从所述多个指定分类中确定与所述待识别的文本中的第一文本对应的第一指定分类;
使用指定的分类器模型对所述第一文本进行识别,获取所述分类器模型输出的所述第一指定分类下的与所述第一文本对应的第一指定词语;
对与所述第一文本对应的多个所述第一指定词语进行检验,将所述第一文本确定为校验通过的第一指定词语的同义词。
2.根据权利要求1所述的方法,其特征在于,所述使用类型识别模型对待识别的文本进行识别,从所述多个指定分类中确定与所述待识别的文本中的第一文本对应的第一指定分类,包括:
从所述待识别的文本中提取所述第一文本;
将所述第一文本输入到所述类型识别模型中;
获取所述类型识别模型的输出结果,其中,所述输出结果包括所述第一指定分类。
3.根据权利要求1所述的方法,其特征在于,在所述使用指定的分类器模型对所述第一文本进行识别,获取所述分类器模型输出的所述第一指定分类下的与所述第一文本对应的第一指定词语之前,所述方法,还包括:
建立与所述多个指定分类对应的多个任务,其中,所述多个任务与所述多个指定分类一一对应;
建立用于执行所述多个任务的第二分类器模型;
对所述第二分类器模型进行训练,得到训练完成后的所述第二分类器模型。
4.根据权利要求3所述的方法,其特征在于,所述使用指定的分类器模型对所述第一文本进行识别,获取所述分类器模型输出的所述第一指定分类下的与所述第一文本对应的第一指定词语,包括:
将所述第一文本输入到训练完成后的所述第二分类器模型中;
获取所述第二分类器模型输出的所述第一指定词语。
5.根据权利要求1所述的方法,其特征在于,所述对与所述第一文本对应的多个所述第一指定词语进行检验,将所述第一文本确定为校验通过的第一指定词语的同义词,包括:
将所述第一文本以及所述分类器模型输出的所述第一指定词语对应保存在记录文件中;
统计所述第一指定词语中的每个词语在所述记录文件中的出现频数;
将与所述第一文本对应的出现频数最大的第二指定词语作为待校验的词语;
对所述第二指定词语进行校验,在所述第二指定词语校验通过的情况下,将所述第一文本确定为所述第二指定词语的同义词。
6.一种同义词的确定装置,其特征在于,包括:
分类模块,用于对至少一个指定词语进行分类,得到多个指定分类;
第一识别模块,用于使用类型识别模型对待识别的文本进行识别,从所述多个指定分类中确定与所述待识别的文本中的第一文本对应的第一指定分类;
第二识别模块,用于使用指定的分类器模型对所述第一文本进行识别,获取所述分类器模型输出的所述第一指定分类下的与所述第一文本对应的第一指定词语;
检验模块,用于对与所述第一文本对应的多个所述第一指定词语进行检验,将所述第一文本确定为校验通过的第一指定词语的同义词。
7.根据权利要求6所述的装置,其特征在于,所述第一识别模块,还用于:
从所述待识别的文本中提取所述第一文本;
将所述第一文本输入到所述类型识别模型中;
获取所述类型识别模型的输出结果,其中,所述输出结果包括所述第一指定分类。
8.根据权利要求6所述的装置,其特征在于,所述装置,还包括处理模块,用于:
建立与所述多个指定分类对应的多个任务,其中,所述多个任务与所述多个指定分类一一对应;
建立用于执行所述多个任务的第二分类器模型;
对所述第二分类器模型进行训练,得到训练完成后的所述第二分类器模型。
9.根据权利要求8所述的装置,其特征在于,所述第二识别模块,还用于:
将所述第一文本输入到训练完成后的所述第二分类器模型中;
获取所述第二分类器模型输出的所述第一指定词语。
10.根据权利要求6所述的装置,其特征在于,所述检验模块,还用于:
将所述第一文本以及所述分类器模型输出的所述第一指定词语对应保存在记录文件中;
统计所述第一指定词语中的每个词语在所述记录文件中的出现频数;
将与所述第一文本对应的出现频数最大的第二指定词语作为待校验的词语;
对所述第二指定词语进行校验,在所述第二指定词语校验通过的情况下,将所述第一文本确定为所述第二指定词语的同义词。
CN201911013160.9A 2019-10-23 2019-10-23 同义词的确定方法及装置 Active CN110852082B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911013160.9A CN110852082B (zh) 2019-10-23 2019-10-23 同义词的确定方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911013160.9A CN110852082B (zh) 2019-10-23 2019-10-23 同义词的确定方法及装置

Publications (2)

Publication Number Publication Date
CN110852082A true CN110852082A (zh) 2020-02-28
CN110852082B CN110852082B (zh) 2023-08-11

Family

ID=69597169

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911013160.9A Active CN110852082B (zh) 2019-10-23 2019-10-23 同义词的确定方法及装置

Country Status (1)

Country Link
CN (1) CN110852082B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111738001A (zh) * 2020-08-06 2020-10-02 腾讯科技(深圳)有限公司 同义词识别模型的训练方法、同义词确定方法及设备
CN112712892A (zh) * 2020-12-30 2021-04-27 杭州依图医疗技术有限公司 数据分析方法、装置及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140114496A (ko) * 2013-03-14 2014-09-29 한국과학기술원 워드 클라우드 기반 텍스트 문서의 이미지화 요약 방법 및 이를 이용한 정보 제공 시스템
CN106202177A (zh) * 2016-06-27 2016-12-07 腾讯科技(深圳)有限公司 一种文本分类方法及装置
CN109471938A (zh) * 2018-10-11 2019-03-15 平安科技(深圳)有限公司 一种文本分类方法及终端

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140114496A (ko) * 2013-03-14 2014-09-29 한국과학기술원 워드 클라우드 기반 텍스트 문서의 이미지화 요약 방법 및 이를 이용한 정보 제공 시스템
CN106202177A (zh) * 2016-06-27 2016-12-07 腾讯科技(深圳)有限公司 一种文本分类方法及装置
CN109471938A (zh) * 2018-10-11 2019-03-15 平安科技(深圳)有限公司 一种文本分类方法及终端

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
KAUSHIK CHAKRABARTI等: "A Framework for Robust Discovery of Entity Synonyms", 《KDD’12》 *
周春 等: "基于概念语义相关性和LDA的文本标记算法", 《华南师范大学学报(自然科学版)》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111738001A (zh) * 2020-08-06 2020-10-02 腾讯科技(深圳)有限公司 同义词识别模型的训练方法、同义词确定方法及设备
CN112712892A (zh) * 2020-12-30 2021-04-27 杭州依图医疗技术有限公司 数据分析方法、装置及存储介质

Also Published As

Publication number Publication date
CN110852082B (zh) 2023-08-11

Similar Documents

Publication Publication Date Title
CN110209764B (zh) 语料标注集的生成方法及装置、电子设备、存储介质
CN109697162B (zh) 一种基于开源代码库的软件缺陷自动检测方法
US10089581B2 (en) Data driven classification and data quality checking system
CN112070138B (zh) 多标签混合分类模型的构建方法、新闻分类方法及系统
CN111191275A (zh) 敏感数据识别方法、系统及其装置
CN109800354B (zh) 一种基于区块链存储的简历修改意图识别方法及系统
US10083403B2 (en) Data driven classification and data quality checking method
CN112183102A (zh) 基于注意力机制与图注意力网络的命名实体识别方法
CN111931809A (zh) 数据的处理方法、装置、存储介质及电子设备
CN110852082B (zh) 同义词的确定方法及装置
CN111462752A (zh) 基于注意力机制、特征嵌入及bi-lstm的客户意图识别方法
CN111190946A (zh) 报告生成方法、装置、计算机设备和存储介质
CN113627194B (zh) 信息抽取方法及装置、通信消息分类方法及装置
CN113641833B (zh) 服务需求匹配方法及装置
CN110737770B (zh) 文本数据敏感性识别方法、装置、电子设备及存储介质
CN114037007A (zh) 数据集的构建方法、装置、计算机设备及存储介质
CN111898528B (zh) 数据处理方法、装置、计算机可读介质及电子设备
CN111694957B (zh) 基于图神经网络的问题单分类方法、设备及存储介质
CN111783424A (zh) 一种文本分句方法和装置
CN109993381B (zh) 基于知识图谱的需求管理应用方法、装置、设备及介质
CN116304033A (zh) 一种基于半监督、双层多分类的诉请识别方法
CN115827871A (zh) 互联网企业分类的方法、装置和系统
CN115525750A (zh) 机器人话术检测可视化方法、装置、电子设备及存储介质
CN115358817A (zh) 基于社交数据的智能产品推荐方法、装置、设备及介质
CN115510188A (zh) 文本关键词关联方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant