CN113761151A - 同义词挖掘、问答方法、装置、计算机设备和存储介质 - Google Patents

同义词挖掘、问答方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN113761151A
CN113761151A CN202110496948.0A CN202110496948A CN113761151A CN 113761151 A CN113761151 A CN 113761151A CN 202110496948 A CN202110496948 A CN 202110496948A CN 113761151 A CN113761151 A CN 113761151A
Authority
CN
China
Prior art keywords
word
basic
synonym
mined
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110496948.0A
Other languages
English (en)
Inventor
张子恒
陈曦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202110496948.0A priority Critical patent/CN113761151A/zh
Publication of CN113761151A publication Critical patent/CN113761151A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种同义词挖掘方法、装置、计算机设备和存储介质。所述方法包括:获取待挖掘词和候选基础同义词集;计算待挖掘词与基础同义词的编辑距离,并计算基础同义词之间的编辑距离,得到各个词距离特征;将待挖掘词和基础同义词分别进行向量化,得到各个词向量特征,提取待挖掘词和基础同义词的知识表征,得到各个词知识特征;将待挖掘词和基础同义词对应的词距离特征、词向量特征和词知识特征进行融合,得到词目标特征;基于待挖掘词对应的词目标特征和基础同义词对应的词目标特征计算待挖掘词与候选基础同义词集的同义程度;基于同义程度确定目标基础同义词集,将待挖掘词新增至目标基础同义词集。采用本方法能够提高同义词挖掘的准确性。

Description

同义词挖掘、问答方法、装置、计算机设备和存储介质
技术领域
本申请涉及计算机技术领域,特别是涉及一种同义词挖掘、问答方法、装置、计算机设备和存储介质。
背景技术
随着大数据和人工智能技术的发展,出现了数据挖掘技术,数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。目前,对同义词挖掘时,通常只是使用简单的相似度算法来进行挖掘。比如,对医疗领域的医学症状同义词进行挖掘时,通过计算医学症状词与医学症状词之间的相似度来挖掘同义词。然而,使用简单的相似度算法来进行挖掘得到的同义词的准确性较低。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高准确性的同义词挖掘、问答方法、装置、计算机设备和存储介质。
一种同义词挖掘方法,所述方法包括:
获取待挖掘词和候选基础同义词集;
计算待挖掘词与候选基础同义词集中的基础同义词的编辑距离,并计算基础同义词集中的基础同义词之间的编辑距离,得到各个词距离特征;
将待挖掘词和基础同义词分别进行向量化,得到各个词向量特征,分别提取待挖掘词和基础同义词的知识表征,得到各个词知识特征;
将待挖掘词对应的词距离特征、词向量特征和词知识特征进行融合,得到待挖掘词对应的词目标特征,将基础同义词对应的词距离特征、词向量特征和词知识特征进行融合,得到基础同义词对应的词目标特征;
基于待挖掘词对应的词目标特征和基础同义词对应的词目标特征计算待挖掘词与候选基础同义词集的同义程度;
基于待挖掘词与候选基础同义词集的同义程度确定目标基础同义词集,将待挖掘词新增至目标基础同义词集。
在其中一个实施例中,所述将所述待挖掘词对应的词距离特征、词向量特征和词知识特征进行融合,得到所述待挖掘词对应的词目标特征,将所述基础同义词对应的词距离特征、词向量特征和词知识特征进行融合,得到所述基础同义词对应的词目标特征,包括:
所述将所述待挖掘词对应的词距离特征、词向量特征和词知识特征进行拼接,得到所述待挖掘词对应的词目标特征;
将所述基础同义词对应的词距离特征、词向量特征和词知识特征进行拼接,得到所述基础同义词对应的词目标特征。
在其中一个实施例中,所述基于所述基础同义词对应的词目标特征进行平均特征相似度计算,得到所述候选基础同义词集对应的相似度,包括:
计算所述基础同义词对应的词目标特征之间的同义词余弦相似度;
并计算所述同义词余弦相似度的平均值,得到所述候选基础同义词集对应的相似度。
在其中一个实施例中,所述基于所述待挖掘词对应的词目标特征和所述基础同义词对应的词目标特征进行平均特征相似度计算,得到所述待挖掘词对应的相似度,包括:
计算所述待挖掘词对应的词目标特征分别与所述基础同义词对应的词目标特征的待挖掘词余弦相似度;
并计算所述待挖掘词余弦相似度和所述同义词余弦相似度的平均值,得到所述待挖掘词对应的相似度。
在其中一个实施例中,在得到所述同义程度识别模型之后,还包括:
获取所述目标基础同义词集,将所述目标基础同义词集作为训练同义词集合,并返回获取各个训练同义词集合的步骤重新迭代执行,直到达到预设目标训练条件时,得到目标同义程度识别模型。
在其中一个实施例中,基于所述待挖掘词与候选基础同义词集的同义程度确定目标基础同义词集,将所述待挖掘词新增至所述目标基础同义词集,包括:
当所述待挖掘词与候选基础同义词集的同义程度超过预设同义词程度阈值时,将所述候选基础同义词集作为目标基础同义词集,将所述待挖掘词新增至所述目标基础同义词集。
在其中一个实施例中,基于所述待挖掘词与候选基础同义词集的同义程度确定目标基础同义词集,将所述待挖掘词新增至所述目标基础同义词集,包括:
当所述待挖掘词与候选基础同义词集的同义程度未超过预设同义词程度阈值时,将所述待挖掘词作为所述目标基础同义词集。
一种同义词挖掘装置,所述装置包括:
获取模块,用于获取待挖掘词和候选基础同义词集;
距离计算模块,用于计算待挖掘词与候选基础同义词集中的基础同义词的编辑距离,并计算基础同义词集中的基础同义词之间的编辑距离,得到各个词距离特征;
特征提取模块,用于将待挖掘词和基础同义词分别进行向量化,得到各个词向量特征,分别提取待挖掘词和基础同义词的知识表征,得到各个词知识特征;
目标特征得到模块,用于将待挖掘词对应的词距离特征、词向量特征和词知识特征进行融合,得到待挖掘词对应的词目标特征,将基础同义词对应的词距离特征、词向量特征和词知识特征进行融合,得到基础同义词对应的词目标特征;
同义计算模块,用于基于待挖掘词对应的词目标特征和基础同义词对应的词目标特征计算待挖掘词与候选基础同义词集的同义程度;
目标集得到模块,用于基于待挖掘词与候选基础同义词集的同义程度确定目标基础同义词集,将待挖掘词新增至目标基础同义词集。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取待挖掘词和候选基础同义词集;
计算待挖掘词与候选基础同义词集中的基础同义词的编辑距离,并计算基础同义词集中的基础同义词之间的编辑距离,得到各个词距离特征;
将待挖掘词和基础同义词分别进行向量化,得到各个词向量特征,分别提取待挖掘词和基础同义词的知识表征,得到各个词知识特征;
将待挖掘词对应的词距离特征、词向量特征和词知识特征进行融合,得到待挖掘词对应的词目标特征,将基础同义词对应的词距离特征、词向量特征和词知识特征进行融合,得到基础同义词对应的词目标特征;
基于待挖掘词对应的词目标特征和基础同义词对应的词目标特征计算待挖掘词与候选基础同义词集的同义程度;
基于待挖掘词与候选基础同义词集的同义程度确定目标基础同义词集,将待挖掘词新增至目标基础同义词集。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取待挖掘词和候选基础同义词集;
计算待挖掘词与候选基础同义词集中的基础同义词的编辑距离,并计算基础同义词集中的基础同义词之间的编辑距离,得到各个词距离特征;
将待挖掘词和基础同义词分别进行向量化,得到各个词向量特征,分别提取待挖掘词和基础同义词的知识表征,得到各个词知识特征;
将待挖掘词对应的词距离特征、词向量特征和词知识特征进行融合,得到待挖掘词对应的词目标特征,将基础同义词对应的词距离特征、词向量特征和词知识特征进行融合,得到基础同义词对应的词目标特征;
基于待挖掘词对应的词目标特征和基础同义词对应的词目标特征计算待挖掘词与候选基础同义词集的同义程度;
基于待挖掘词与候选基础同义词集的同义程度确定目标基础同义词集,将待挖掘词新增至目标基础同义词集。
上述同义词挖掘方法、装置、计算机设备和存储介质,通过计算待挖掘词与候选基础同义词集中的基础同义词的编辑距离,并计算基础同义词集中的基础同义词之间的编辑距离,得到各个词距离特征;将待挖掘词和基础同义词分别进行向量化,得到各个词向量特征,分别提取待挖掘词和基础同义词的知识表征,得到各个词知识特征,然后使用词距离特征、词向量特征和词知识特征来计算待挖掘词与候选基础同义词集的同义程度,从而能够提高同义程度的准确性。然后使用待挖掘词与候选基础同义词集的同义程度确定目标基础同义词集,将待挖掘词新增至目标基础同义词集,即使用同义程度来确定与待挖掘词同义的同义词集,从而能够提高同义词挖掘的准确性。
一种问答方法,所述方法包括:
获取询问语句;
从询问语句中提取非标准询问词;
获取各个同义词集,同义词集是通过获取待挖掘词和候选基础同义词集;计算待挖掘词与候选基础同义词集中的基础同义词的编辑距离,并计算基础同义词集中的基础同义词之间的编辑距离,得到各个词距离特征;将待挖掘词和基础同义词分别进行向量化,得到各个词向量特征,分别提取待挖掘词和基础同义词的知识表征,得到各个词知识特征;将待挖掘词对应的词距离特征、词向量特征和词知识特征进行融合,得到待挖掘词对应的词目标特征,将基础同义词对应的词距离特征、词向量特征和词知识特征进行融合,得到基础同义词对应的词目标特征;基于待挖掘词对应的词目标特征和基础同义词对应的词目标特征计算待挖掘词与候选基础同义词集的同义程度;基于待挖掘词与候选基础同义词集的同义程度确定目标基础同义词集,将待挖掘词新增至目标基础同义词集得到的;
在各个同义词集查询非标准询问词对应的目标同义词集;
从目标同义词集中获取非标准询问词对应的标准同义词;
基于标准同义词从已建立的知识图谱中查询对应的回复词,基于回复词进行回复。
在其中一个实施例中,所述方法还包括:
将所述目标同义词集中的目标同义词新增至所述已建立的知识图谱中,得到目标知识图谱。
一种问答装置,所述装置包括:
语句获取模块,用于获取询问语句;
词提取模块,用于从询问语句中提取非标准询问词;
词集获取模块,用于获取各个同义词集,同义词集是通过获取待挖掘词和候选基础同义词集;计算待挖掘词与候选基础同义词集中的基础同义词的编辑距离,并计算基础同义词集中的基础同义词之间的编辑距离,得到各个词距离特征;将待挖掘词和基础同义词分别进行向量化,得到各个词向量特征,分别提取待挖掘词和基础同义词的知识表征,得到各个词知识特征;将待挖掘词对应的词距离特征、词向量特征和词知识特征进行融合,得到待挖掘词对应的词目标特征,将基础同义词对应的词距离特征、词向量特征和词知识特征进行融合,得到基础同义词对应的词目标特征;基于待挖掘词对应的词目标特征和基础同义词对应的词目标特征计算待挖掘词与候选基础同义词集的同义程度;基于待挖掘词与候选基础同义词集的同义程度确定目标基础同义词集,将待挖掘词新增至目标基础同义词集得到的;
查询模块,用于在各个同义词集查询非标准询问词对应的目标同义词集;
标准词获取模块,用于从目标同义词集中获取非标准询问词对应的标准同义词;
回复模块,用于基于标准同义词从已建立的知识图谱中查询对应的回复词,基于回复词进行回复。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取询问语句;
从询问语句中提取非标准询问词;
获取各个同义词集,同义词集是通过获取待挖掘词和候选基础同义词集;计算待挖掘词与候选基础同义词集中的基础同义词的编辑距离,并计算基础同义词集中的基础同义词之间的编辑距离,得到各个词距离特征;将待挖掘词和基础同义词分别进行向量化,得到各个词向量特征,分别提取待挖掘词和基础同义词的知识表征,得到各个词知识特征;将待挖掘词对应的词距离特征、词向量特征和词知识特征进行融合,得到待挖掘词对应的词目标特征,将基础同义词对应的词距离特征、词向量特征和词知识特征进行融合,得到基础同义词对应的词目标特征;基于待挖掘词对应的词目标特征和基础同义词对应的词目标特征计算待挖掘词与候选基础同义词集的同义程度;基于待挖掘词与候选基础同义词集的同义程度确定目标基础同义词集,将待挖掘词新增至目标基础同义词集得到的;
在各个同义词集查询非标准询问词对应的目标同义词集;
从目标同义词集中获取非标准询问词对应的标准同义词;
基于标准同义词从已建立的知识图谱中查询对应的回复词,基于回复词进行回复。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取询问语句;
从询问语句中提取非标准询问词;
获取各个同义词集,同义词集是通过获取待挖掘词和候选基础同义词集;计算待挖掘词与候选基础同义词集中的基础同义词的编辑距离,并计算基础同义词集中的基础同义词之间的编辑距离,得到各个词距离特征;将待挖掘词和基础同义词分别进行向量化,得到各个词向量特征,分别提取待挖掘词和基础同义词的知识表征,得到各个词知识特征;将待挖掘词对应的词距离特征、词向量特征和词知识特征进行融合,得到待挖掘词对应的词目标特征,将基础同义词对应的词距离特征、词向量特征和词知识特征进行融合,得到基础同义词对应的词目标特征;基于待挖掘词对应的词目标特征和基础同义词对应的词目标特征计算待挖掘词与候选基础同义词集的同义程度;基于待挖掘词与候选基础同义词集的同义程度确定目标基础同义词集,将待挖掘词新增至目标基础同义词集得到的;
在各个同义词集查询非标准询问词对应的目标同义词集;
从目标同义词集中获取非标准询问词对应的标准同义词;
基于标准同义词从已建立的知识图谱中查询对应的回复词,基于回复词进行回复。
上述问答方法、装置、计算机设备和存储介质,通过使用询问语句中的非标准询问词查询到对应的目标同义词集,然后从目标同义词集中获取非标准询问词对应的标准同义词,最后使用标准同义词从已建立的知识图谱中查询对应的回复词,基于回复词进行回复。即能够对非标准的询问语句查询到对应的标准同义词,然后使用标准同义词查询到对应的回复词,进而使用回复词进行回复,能够提高对询问语句答复的准确性。
附图说明
图1为一个实施例中同义词挖掘方法的应用环境图;
图2为一个实施例中同义词挖掘方法的流程示意图;
图3为一个实施例中得到词知识特征的流程示意图;
图4为一个实施例中训练实体转移模型的流程示意图;
图5为一个实施例中训练本体转移模型的流程示意图;
图6为一个实施例中计算同义词程度的流程示意图;
图7为一个实施例中训练同义程度识别模型的流程示意图;
图8为一个实施例中问答方法的流程示意图;
图9为一个具体实施例中同义词挖掘方法的流程示意图;
图10为一个具体实施例中同义词挖掘的框架示意图;
图11为一个实施例中同义词挖掘装置的结构框图;
图12为一个实施例中问答装置的结构框图;
图13为一个实施例中计算机设备的内部结构图;
图14为另一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
本申请实施例提供的方案涉及人工智能的机器翻译、机器人问答、知识图谱等技术,具体通过如下实施例进行说明:
本申请提供的同义词挖掘方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。终端102向服务器发送同义词挖掘指令,服务器104接收到同义词挖掘指令,根据同义词挖掘指令从数据库106中获取待挖掘词和候选基础同义词集;服务器104计算待挖掘词与候选基础同义词集中的基础同义词的编辑距离,并计算基础同义词集中的基础同义词之间的编辑距离,得到各个词距离特征;服务器104将待挖掘词和基础同义词分别进行向量化,得到各个词向量特征,分别提取待挖掘词和基础同义词的知识表征,得到各个词知识特征;服务器104将待挖掘词对应的词距离特征、词向量特征和词知识特征进行融合,得到待挖掘词对应的词目标特征,将基础同义词对应的词距离特征、词向量特征和词知识特征进行融合,得到基础同义词对应的词目标特征;服务器104基于待挖掘词对应的词目标特征和基础同义词对应的词目标特征计算待挖掘词与候选基础同义词集的同义程度;服务器104基于待挖掘词与候选基础同义词集的同义程度确定目标基础同义词集,将待挖掘词新增至目标基础同义词集。服务器104将同义词挖掘结果返回终端102进行展示。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
在一个实施例中,如图2所示,提供了一种同义词挖掘方法,以该方法应用于图1中的服务器为例进行说明,可以理解的是,该方法也可以应用在终端中,还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现。
包括以下步骤:
步骤202,获取待挖掘词和候选基础同义词集。
其中,待挖掘词是指需要进行同义词判断的词,即需要识别该待挖掘词是否是候选基础同义词集中的同义词。候选基础同义词集是指当前需要识别与待挖掘词是否同义的基础同义词集合。基础同义词集合是预先设置好的基础的同义词的集合,是同义词的基础数据。候选基础同义词集至少有一个。
具体地,服务器可以直接从数据库中获取到待挖掘词和候选基础同义词集。也可以从互联网获取到待挖掘词,然后从数据库中获取到候选基础同义词集。服务器也可以获取到终端提供的待挖掘词,然后从数据库中获取到候选基础同义词集。服务器也可以获取到业务服务器发送的待挖掘词,然后从数据库中获取到候选基础同义词集。在一个实施例中,不同的应用场景可以建立不同的候选基础同义词集,然后根据业务场景获取到该业务场景下的待挖掘词和候选基础同义词集。比如,金融应用场景也可以建立金融基础同义词集,医疗应用场景也可以建立医疗基础同义词集,教育应用场景可以建立教育基础同义词集。互联网应用场景可以建立互联网基础同义词集等等,然后再进一步进行同义词的挖掘。
步骤204,计算待挖掘词与候选基础同义词集中的基础同义词的编辑距离,并计算基础同义词集中的基础同义词之间的编辑距离,得到各个词距离特征。
其中,编辑距离是指Levenshtein距离,是指两个字串之间,由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。词距离特征是指根据编辑距离得到的词之间的特征。
具体地,服务器使用编辑距离算法计算待挖掘词分别与每个候选基础同义词集中的基础同义词的编辑距离,得到待挖掘词与基础同义词之间的编辑距离,即得到待挖掘词与各个基础同义词之间的词距离特征。然后服务器使用编辑距离算法计算基础同义词集中的基础同义词与基础同义词之间的编辑距离,得到基础同义词与基础同义词之间的词距离特征。
在一个实施例中,服务器计算将待挖掘词转换为基础同义词时对应的第一最少编辑操作次数,将第一最小编辑操作次数作为待挖掘词与基础同义词的编辑距离,然后计算将候选基础同义词集中的第一基础同义词转换为候选基础同义词集中的第二基础同义词时对应的第二最少编辑操作次数,将第二最小编辑操作次数作为基础同义词集中的基础同义词之间的编辑距离。
其中,第一最少编辑操作次数是指将待挖掘词转换为基础同义词时需要的最少编辑操作次数。第二最少编辑操作次数是指将候选基础同义词集中的第一基础同义词转换为候选基础同义词集中的第二基础同义词时需要的最少编辑操作次数。第一基础同义词和第二基础同义词是指候选基础同义词集中不同的基础同义词。然后服务器通过替换操作,插入操作以及删除操作将待挖掘词转换为基础同义词,并统计需要的第一最少编辑操作次数,同时通过替换操作,插入操作以及删除操作将第一基础同义词转换为第二基础同义词,并统计需要的第二最少编辑操作次数。将第一最小编辑操作次数作为待挖掘词与基础同义词的编辑距离,将第二最小编辑操作次数作为基础同义词集中的基础同义词之间的编辑距离。
步骤206,将待挖掘词和基础同义词分别进行向量化,得到各个词向量特征,分别提取待挖掘词和基础同义词的知识表征,得到各个词知识特征。
其中,向量化是指将词转换为向量的过程。词向量特征是指词向量化后得到的特征。知识表征是指将词表示在低维稠密向量空间中。词知识特征是指将词进行知识表征提取后得到的特征。
具体地,服务器可以使用向量化算法将待挖掘词和基础同义词分别进行向量化,得到待挖掘词对应的词向量特征和每个基础同义词对应的词向量特征。其中,向量化算法可以是Word2vec算法(一群用来产生词向量的相关模型)、BERT(Bidirectional EncoderRepresentations from Transformers,基于转换器的双向编码表征)算法、ALBERT(一个精简的BERT)算法等等。然后服务器可以使用自然语言转移(translational)算法提取待挖掘词和基础同义词的知识表征,得到各个词知识特征,其中,自然语言转移(translational)算法可以是Trans系列算法,可以包括TransE算法(Translation embeddings formodeling multi-relation data,多元关系数据嵌入)、TransH算法(Knowledge graphembedding by translating on hyperplanes,将知识嵌入到超平面)、TransR算法(Learning Entity and Relation Embeddings for Knowledge Graph Completion,实体和关系分开嵌入)等等。
在一个实施例中,服务器将待挖掘词和基础同义词分别输入到向量化模型中进行向量化,得到等维度的各个词向量特征。
其中,向量化模型是指用于进行词向量化的模型,是预先通过向量化算法建立的模型。
具体地,服务器可以预先使用向量化算法训练好向量化模型,然后将向量化模型进行部署并使用。在使用时,即获取到要向量化的待挖掘词和基础同义词时,调用部署的向量化模型,将待挖掘词和基础同义词分别输入到向量化模型中进行向量化,得到输出的等维度的各个词向量特征,该词向量化特征的维度时相等。
步骤208,将待挖掘词对应的词距离特征、词向量特征和词知识特征进行融合,得到待挖掘词对应的词目标特征,将基础同义词对应的词距离特征、词向量特征和词知识特征进行融合,得到基础同义词对应的词目标特征。
其中,词目标特征是指将词距离特征、词向量特征和词知识特征融合后得到的特征。
具体地,服务器可以对待挖掘词对应的词距离特征、词向量特征和词知识特征进行融合,得到待挖掘词对应的词目标特征。然后将基础同义词对应的词距离特征、词向量特征和词知识特征进行融合,得到基础同义词对应的词目标特征。该融合可以是进行及联(concat)操作、也可以是进行相乘操作,也可以是进行向量和操作,向量积操作等等。该基础同义词对应的词距离特征有多个,包括基础同义词与待挖掘词之间的词距离特征以及基础同义词与候选基础同义词集中其他所有基础同义词之间的词距离特征,然后服务器进行融合后可以得到基础同义词对应的多个词目标特征。
在一个实施例中,服务器将待挖掘词对应的词距离特征、词向量特征和词知识特征进行拼接,得到待挖掘词对应的词目标特征,并将基础同义词对应的词距离特征、词向量特征和词知识特征进行拼接,得到基础同义词对应的词目标特征。
具体地,服务器将待挖掘词对应的词距离特征、词向量特征和词知识特征依次进行首尾拼接,得到待挖掘词对应的词目标特征,然后将基础同义词对应的词距离特征、词向量特征和词知识特征依次进行首尾拼接,得到基础同义词对应的词目标特征。服务器也可以将词知识特征、词向量特征和词距离特征依次进行首尾拼接,得到对应的词目标特征。服务器也可以将词向量特征、词知识特征和词距离特征依次进行首尾拼接,得到对应的词目标特征。
步骤210,基于待挖掘词对应的词目标特征和基础同义词对应的词目标特征计算待挖掘词与候选基础同义词集的同义程度。
其中,同义程度用于表征待挖掘词与候选基础同义词集同义的可能性。
具体地,服务器可以使用余弦相似度算法使用待挖掘词对应的词目标特征和基础同义词对应的词目标特征计算待挖掘词与候选基础同义词集的同义程度。即计算待挖掘词对应的词目标特征与候选基础同义词集的余弦相似度,进而得到待挖掘词与候选基础同义词集的同义程度。
步骤212,基于待挖掘词与候选基础同义词集的同义程度确定目标基础同义词集,将待挖掘词新增至目标基础同义词集。
具体地,服务器从挖掘词与候选基础同义词集的同义程度中确定最大的同义程度对应的候选基础同义词集,将该候选基础同义词集作为目标基础同义词集。然后服务器将待挖掘词新增至目标基础同义词集,即将待挖掘词归纳到目标基础同义词集中,从而得到扩展后的基础同义词集。在一个实施例中,可以将挖掘词与候选基础同义词集的同义程度与预先设置好的同义程度阈值进行比较,当挖掘词与候选基础同义词集的同义程度超过预先设置好的同义程度阈值时,将待挖掘词新增至目标基础同义词集中,得到扩展后的基础同义词集。
在一个实施例中,在挖掘得到同义词集合后,可以使用同义词集合进行问答处理,比如,将同义词集合应用到在线问诊场景中,当获取到用户的问诊语句时,可以从同义词集合查询到问诊语句中口语化的词对应的标准同义词,然后可以根据查询到的标准同义词对问诊语句进行回复,可以使在线问诊的结果提高准确性。
在一个实施例中,在挖掘得到的同义词集合后,可以使用同义词集合进行查询处理,比如,将同义词集合应用到在线查询场景中,当获取到用户的查询语句时,可以从同义词集合查询到查询语句中词的各个同义词,然后可以使用各个同义词来获取查询结果,进而可以丰富查询结果,提高查询结果的准确性。
在一个实施例中,在挖掘得到的同义词集合后,可以使用同义词集合进行补充知识图谱,即可以根据同义词集合得到知识图谱中实体的同义词,将实体的同义词作为实体的同义关系补充知识图谱,可以提升现有知识图谱的丰富程度,增强知识图谱的表达能力。
上述同义词挖掘方法,通过计算待挖掘词与候选基础同义词集中的基础同义词的编辑距离,并计算基础同义词集中的基础同义词之间的编辑距离,得到各个词距离特征;将待挖掘词和基础同义词分别进行向量化,得到各个词向量特征,分别提取待挖掘词和基础同义词的知识表征,得到各个词知识特征,然后使用词距离特征、词向量特征和词知识特征来计算待挖掘词与候选基础同义词集的同义程度,从而能够提高同义程度的准确性。然后使用待挖掘词与候选基础同义词集的同义程度确定目标基础同义词集,将待挖掘词新增至目标基础同义词集,即使用同义程度来确定与待挖掘词同义的同义词集,从而能够提高同义词挖掘的准确性。
在一个实施例中,如图3所示,步骤206,分别提取待挖掘词和基础同义词的知识表征,得到各个词知识特征;包括:
步骤302,将待挖掘词和基础同义词分别输入到实体转移模型中进行语义信息提取,得到各个词语义特征,实体转移模型是基于已建立的实体知识图谱中的实体三元组建立的转移模型。
其中,实体转移模型是指通过实体关系三元组的知识图谱建立的转移模型。该知识图谱中包括实体集合、关系集合、以及实体关系三元组集合,通过实体集合、关系集合、以及实体关系三元组集合使用自然语音转移算法训练得到实体转移模型。
具体的,服务器获取到知识图谱,该知识图谱时预先根据实体关系建立的。然后获取到知识图谱中的实体集合、关系集合、以及实体关系三元组集合,通过自然语言转移算法训练得到实体转移模型,其中,可以使用TransE算法训练得到实体转移模型,然后将实体转移模型进行部署并使用。当获取到待挖掘词和基础同义词时,将待挖掘词和基础同义词分别输入到实体转移模型中进行语义信息提取,得到各个词语义特征。该提取得到的词语义特征中就隐含有实体关系的语义信息。
步骤304,将各个词语义知识特征输入到本体转移模型中进行知识增强,得到包含有本体知识信息的各个词知识特征,本体转移模型是基于已建立的本体知识图谱中的本体三元组建立的转移模型。
其中,本体转移模型是指通过本体关系三元组的知识图谱建立的转移模型。本体指的是对于知识图谱的定义,定义知识图谱中所有的实体节点和关系节点的具体表示、领域、范围等元数据,本体中的类别(或概念)对于指导知识图谱层面的任务具有重要意义。本体是知识图谱的抽象概括,比如本体中的节点是概念(如疾病、药品这样的大类概念)。
具体的,服务器获取到本体知识图谱,该本体知识图谱中包括别集合、关系集合、本体三元组集合。关系集合中只存在子类关系,即该本体未一个树状结构的网络。然后使用本体知识图谱通过自然语言转移算法训练得到本体转移模型。比如,可以使用TransC算法训练得到本体转移模型。然后将训练得到本体转移模型部署并使用。当获取到各个词语义知识特征时,将各个词语义知识特征输入到本体转移模型中进行知识增强,得到包含有本体知识信息的各个词知识特征,即可以将本体的知识信息进一步融合进行实体的向量表达中,得到增强后的向量表征。
在上述实施例中,通过使用实体转移模型将待挖掘词和基础同义词进行知识表示,得到各个词语义特征,然后进一步使用本体转移模型对各个词语义特征进行知识增强,使得本体的知识信息融合到词语义特征中,从而使得到的词知识特征具有丰富的知识信息,进而提高后续同义词识别的准确性。
在一个实施例中,如图4所示,实体转移模型的训练包括以下步骤:
步骤402,从已建立的实体知识图谱中获取正确实体三元组和错误实体三元组。
其中,正确实体三元组是指正确的实体三元组,错误实体三元组是指将正确实体三元组进行随机替换实体或者实体关系后得到的三元组。
具体地,服务器获取到已建立的实体知识图谱,然后从已建立的实体知识图谱中获取正确实体三元组。并使用正确实体三元组随机替换实体或者实体关系后得到的错误实体三元组,比如,可以将正确实体三元组中的尾实体替换成其他实体,得到错误实体三元组,也可以将正确实体三元组中的头实体替换成其他实体,得到错误实体三元组,也可以将正确实体三元组中的实体关系替换成其他实体关系,得到错误实体三元组。
步骤404,将正确实体三元组和错误实体三元组输入到初始实体转移模型中,得到初始正确实体三元组向量和初始错误实体三元组向量。
其中,初始实体转移模型是指模型参数初始化的实体转移模型,其中,可以是随机初始化,也可以是为零初始化等等。初始正确实体三元组向量是指使用初始模型参数得到的正确实体三元组的向量,初始错误实体三元组向量是指使用初始模型参数得到的错误实体三元组的向量。
具体地,服务器直接将,将正确实体三元组和错误实体三元组输入到初始实体转移模型中,初始实体转移模型得到初始正确实体三元组向量和初始错误实体三元组向量。
步骤406,基于初始正确实体三元组向量进行距离计算,得到初始正确实体距离,并基于初始错误实体三元组进行距离计算,得到初始错误实体距离。
其中,初始正确实体距离是指使用预先设置好的打分函数进行距离计算得到的初始正确实体三元组向量之间的距离,即头实体以及关系与尾实体之间的距离。初始错误实体距离是指使用预先设置好的打分函数进行距离计算得到的初始错误实体三元组向量之间的距离,即头实体以及关系与尾实体之间的距离。
具体地,服务器使用打分函数对初始正确实体三元组向量以及初始错误实体三元组进行计算,得到初始正确实体距离和初始错误实体距离。在一个具体的实施例中,打分函数可以使用如下所示的公式(1).
Figure BDA0003054742540000171
其中,h是指三元组中的头实体向量,r是指三元组中的关系向量,t是指三元组中的尾实体向量,
Figure BDA0003054742540000172
是指L2范数。使用公式(1)计算初始正确实体三元组向量以及初始错误实体三元组对应的初始正确实体距离和初始错误实体距离。即构建h+r=t的实体转移模型。
步骤408,基于初始正确实体距离和初始错误实体距离计算得到距离误差,基于距离误差更新初始实体转移模型,得到更新实体转移模型。
其中,距离误差是指初始正确实体距离和初始错误实体距离之间的误差。更新实体转移模型是指模型参数更新后的实体转移模型。
具体地,服务器使用损失函数计算初始正确实体距离和初始错误实体距离之间的距离误差,然后使用梯度下降算法通过距离误差反向更新初始实体转移模型,得到更新实体转移模型。其中,可以使用如下所示的公式(2)计算得到距离误差。
L(h,r,t)=max(0,d_pos-d_neg+margin)公式(2)
其中,d_pos是指初始正确实体距离,d_neg是指初始错误实体距离,margin是超参,用于控制正负样本空间距离,可以根据需要设置,比如,可以设置尾0.2。
步骤410,将更新实体转移模型作为初始实体转移模型,并返回获取正确实体三元组和错误实体三元组的步骤迭代执行,直到达到预设实体训练完成条件时,得到实体转移模型。
其中,预设实体训练完成条件是指预先设置好的训练完成的实体转移模型的条件,可以包括迭代次数达到最大次数、损失函数的值达到预设阈值以及模型参数不再发生变化等等。
具体地,服务器将更新实体转移模型作为初始实体转移模型,然后返回获取正确实体三元组和错误实体三元组的步骤继续迭代执行,直到达到预设实体训练完成条件时,将达到预设实体训练完成条件时的初始实体转移模型作为最终训练得到的实体转移模型。
在上述实施例中,通过使用正确实体三元组和错误实体三元组输入到初始实体转移模型中,然后通过计算初始正确实体距离和初始错误实体距离的距离误差,使用距离误差来反向更新初始实体转移模型,并不断进行训练迭代,从而训练得到实体转移模型,提高了训练的准确性。
在一个实施例中,如图5所示,本体转移模型的训练包括以下步骤:
步骤502,从已建立的本体知识图谱中获取类别信息、关系信息、正确本体三元组和错误本体三元组。
其中,类别信息是指本体知识图谱中的类别组成的集合。关系信息是指本体知识图谱中的子类关系(subClassOf)的集合。本体三元组是指本体知识图谱中的子类关系的三元组。正确本体三元组是指子类关系正确的本体三元组,错误本体三元组是指子类关系有误的本体三元组。
具体地,服务器获取到已建立的本体知识图谱,然后从已建立的本体知识图谱中获取类别信息、关系信息、正确本体三元组,然后将正确本体三元组进行随机替换,得到错误本体三元组,其中,可以将正确本体三元组中的子类关系进行随机替换,得到错误本体三元组,也可以将正确本体三元组中的头类别进行随机替换,得到错误本体三元组,也可以将正确本体三元组中的尾类别进行随机替换,得到错误本体三元组。在一个具体的实施例中,本体知识图谱是指医疗知识图谱,则类别可以是“疾病”和“药品”,关系有“治疗药物”和“禁忌药物”,则本体三元组可以为“疾病_治疗药物_药品”和“疾病_禁忌药物_药品”。
步骤504,将类别信息、关系信息、正确本体三元组和错误本体三元组输入到初始本体转移模型中,初始本体转移模型将类别信息和关系信息输入初始本体网络中,初始本体网络基于类别信息和关系信息确定类别信息对应的初始本体范围参数,将初始本体范围参数和正确本体三元组和错误本体三元组输入到初始本体融合网络中,初始本体融合网络输出初始正确本体三元组向量和初始错误本体三元组向量。
其中,初始本体转移模型是指模型参数初始化的本体转移模型。初始本体网络是指网络参数初始化的本体网络,用于基于类别信息和关系信息确定类别信息对应的初始本体范围参数。初始本体范围参数是指初始的类别对应的本体范围参数。其中,每个类别都被认为是一个圆形空间,圆形空间的参数就是本体范围参数,可以包括半径和圆心。初始本体融合网络是指网络参数初始化的本体融合网络,本体融合网络用于将本体的知识信息融合进实体的向量表达中。
具体地,服务器将类别信息、关系信息、正确本体三元组和错误本体三元组输入到初始本体转移模型中,初始本体转移模型将类别信息和关系信息输入初始本体网络中,初始本体网络基于类别信息和关系信息确定类别信息对应的初始本体范围参数,将初始本体范围参数和正确本体三元组和错误本体三元组输入到初始本体融合网络中,初始本体融合网络输出初始正确本体三元组向量和初始错误本体三元组向量。
步骤506,基于初始正确本体三元组向量和对应的初始本体范围参数进行损失计算,得到初始正确本体误差,并基于初始错误本体三元组向量和对应的初始本体参数进行损失计算,得到初始错误本体误差。
其中,初始正确本体误差是指使用初始正确本体三元组向量和对应的初始本体范围参数计算得到的误差,初始错误本体误差是指使用初始错误本体三元组向量和对应的初始本体参数进行误差计算得到的误差。
具体地,服务器使用初始正确本体三元组向量和对应的初始本体范围参数进行损失计算,得到初始正确本体误差,并基于初始错误本体三元组向量和对应的初始本体参数进行损失计算,得到初始错误本体误差。
在一个具体的实施例中,可以使用如下所示的公式(3)、公式(4)和公式(5)计算得到损失信息。
Figure BDA0003054742540000191
其中,m是指类别对应的半径。
Figure BDA0003054742540000192
是指本体三元组向量中的头类别对应的半径。
Figure BDA0003054742540000193
是指本体三元组向量中尾类别对应的半径。当本体三元组向量中尾类别属于本体三元组向量中的头类别时,使用公式(3)计算得到的类别之间的误差。
Figure BDA0003054742540000201
其中,p是指类别对应的圆心,p_c_i是指本体三元组向量中头类别对应的圆心。p_c_j是指本体三元组向量中尾类别对应的圆心。当本体三元组向量中尾类别不属于本体三元组向量中的头类别时,使用公式(3)计算得到类别之间的误差。
f(i,c)=||i-p||2-m 公式(5)
其中,i是指实体,c表示类别,m是指类别对应的半径。即使用公式(5)计算得到实体与类别之间的误差。即计算实体与类别的关系(instanceOf)的损失信息。
步骤508,基于初始正确本体误差和初始错误本体误差计算得到目标损失信息,基于目标损失信息更新初始本体转移模型,得到更新本体转移模型。
其中,目标损失信息是指使用预设损失函数计算得到的损失信息。
具体地,服务器使用预先设置好的损失函数计算初始正确本体误差和初始错误本体误差之间的损失信息,得到目标损失信息,然后使用梯度下降算法反向更新初始本体转移模型中的模型参数,得到更新本体转移模型。在一个具体的实施例中,可以使用TransC算法的损失函数来计算得到目标损失信息。
步骤510,将更新本体转移模型作为初始本体转移模型,并返回从已建立的本体知识图谱中获取类别信息、关系信息、正确本体三元组和错误本体三元组的步骤迭代执行,直到达到预设本体训练完成条件时,得到本体转移模型。
其中,预设本体训练完成条件是指预先设置好的本体转移模型训练完成的条件,包括迭代次数达到最大次数、损失函数的值达到预设阈值以及模型参数不再发生变化等等。
具体地,服务器将更新本体转移模型作为初始本体转移模型,并返回从已建立的本体知识图谱中获取类别信息、关系信息、正确本体三元组和错误本体三元组的步骤迭代执行,直到达到预设本体训练完成条件时,得到本体转移模型。
在上述实施例中,通过使用类别信息、关系信息、正确本体三元组和错误本体三元组到初始本体转移模型中,然后通过计算目标损失信息,使用目标损失信息反向更新初始本体转移模型,并不断进行训练迭代,从而训练得到本体转移模型,提高了训练的准确性。
在一个实施例中,如图6所示,步骤210,基于待挖掘词对应的词目标特征和基础同义词对应的词目标特征计算待挖掘词与候选基础同义词集的同义程度,包括:
步骤602,基于基础同义词对应的词目标特征进行平均特征相似度计算,得到候选基础同义词集对应的相似度。
其中,候选基础同义词集对应的相似度是指候选基础同义词集合对应的相似度。
具体地,服务器使用相似度算法计算基础同义词对应的词目标特征之间的相似度,然后计算候选基础同义词集对应的词目标特征之间的相似度的平均值,得到候选基础同义词集对应的相似度,其中,相似度算法可以是欧几里得距离算法、皮尔逊相关系数算法、余弦相似度算法等等。
在一个实施例中,服务器计算基础同义词对应的词目标特征之间的同义词余弦相似度;并计算同义词余弦相似度的平均值,得到候选基础同义词集对应的相似度。
具体地,服务器使用余弦相似度算法计算候选基础同义词集总每个基础同义词对应的词目标特征与其他基础同义词对应的词目标特征之间的同义词余弦相似度,然后计算所有同义词余弦相似度的平均值,得到候选基础同义词集对应的相似度。比如,候选基础同义词集中有A,B和C三个同义词。此时使用余弦相似度算法计算A与B对应的词目标特征之间的同义词余弦相似度,计算A与C对应的词目标特征之间的同义词余弦相似度,并计算B与C对应的词目标特征之间的同义词余弦相似度。然后计算三个余弦相似度的平均值,得到候选基础同义词集(A,B,C)对应的相似度。
步骤604,基于待挖掘词对应的词目标特征和基础同义词对应的词目标特征进行平均特征相似度计算,得到待挖掘词对应的相似度。
其中,待挖掘词对应的相似度是指将待挖掘词新增到候选基础同义词集中后得到的集合相似度。
具体地,服务器使用余弦相似度算法计算待挖掘词对应的词目标特征与基础同义词对应的词目标特征之间的挖掘词余弦相似度,然后使用余弦相似度算法计算基础同义词对应的词目标特征之间的同义词余弦相似度,并计算所有挖掘词余弦相似度和同义词余弦相似度的总和的平均值,得到待挖掘词对应的相似度。
在一个实施例中,服务器计算待挖掘词对应的词目标特征分别与基础同义词对应的词目标特征的待挖掘词余弦相似度;并计算待挖掘词余弦相似度和同义词余弦相似度的平均值,得到待挖掘词对应的相似度。
具体地,服务器使用余弦相似度计算待挖掘词对应的词目标特征与每个基础同义词对应的词目标特征之间的相似度,得到待挖掘词余弦相似度。然后获取到所有的同义词余弦相似度,计算待挖掘词余弦相似度和同义词余弦相似度的平均值,得到待挖掘词对应的相似度,比如,待挖掘词为D,计算待挖掘词D分别与候选基础同义词集中A、B和C之间的余弦相似度,得到新增的三个余弦相似度,然后计算六个余弦相似度的平均相似度,得到待挖掘词对应的相似度。
步骤606,计算候选基础同义词集对应的相似度与待挖掘词对应的相似度的差值,基于差值确定待挖掘词与候选基础同义词集的同义程度。
具体地,服务器计算候选基础同义词集对应的相似度与待挖掘词对应的相似度的差值,将该差值进行归一化,得到确定待挖掘词与候选基础同义词集的同义程度。
在上述实施例中,通过计算候选基础同义词集对应的相似度和待挖掘词对应的相似度,通过平均相似度作为候选基础同义词集对应的相似度和待挖掘词对应的相似度,从而使得计算得到的相似度提高了准确性。然后通过计算候选基础同义词集对应的相似度与待挖掘词对应的相似度的差值,从而得到待挖掘词与候选基础同义词集的同义程度,能够提高得到的同义程度的准确性。
在一个实施例中,步骤210,即基于待挖掘词对应的词目标特征和基础同义词对应的词目标特征计算待挖掘词与候选基础同义词集的同义程度,包括步骤:
将待挖掘词对应的词目标特征和基础同义词对应的词目标特征输入到同义程度识别模型中;同义程度识别模型通过全连接网络基于基础同义词对应的词目标特征进行平均特征相似度计算,得到候选基础同义词集对应的相似度,并基于待挖掘词对应的词目标特征和基础同义词对应的词目标特征进行平均特征相似度计算,得到待挖掘词对应的相似度,计算候选基础同义词集对应的相似度与待挖掘词对应的相似度的差值,并将相差值通过非线性映射网络进行非线性映射,得到待挖掘词与候选基础同义词集的同义程度。
其中,同义程度识别模型用于识别待挖掘词与候选基础同义词集的同义词程度,然后根据同义程度确定待挖掘词是否属于候选基础同义词集。
具体地,服务器通过预先训练好同义程度识别模型并部署使用,然后将待挖掘词对应的词目标特征和基础同义词对应的词目标特征输入到同义程度识别模型中,同义程度识别模型通过全连接网络基于基础同义词对应的词目标特征进行平均特征相似度计算,得到候选基础同义词集对应的相似度,并基于待挖掘词对应的词目标特征和基础同义词对应的词目标特征进行平均特征相似度计算,得到待挖掘词对应的相似度,计算候选基础同义词集对应的相似度与待挖掘词对应的相似度的差值,并将相差值通过非线性映射网络进行非线性映射,得到待挖掘词与候选基础同义词集的同义程度。在一个实施例中,同义程度识别模型可以是分类模型,该类别包括待挖掘词属于候选基础同义词集以及待挖掘词不属于候选基础同义词集。当同义程度识别模型得到待挖掘词与候选基础同义词集的同义程度,根据该同义词程度确定待挖掘词是否属于候选基础同义词集,输出分类识别结果。在一个具体的实施例中,可以使用如下所示的公式(6)计算同义程度。
Pr(t∈S)=f(S,t)=sigmoid(q(S∪{t})-q(S)) 公式(6)
其中,Pr是指同义程度,t是指待挖掘词,S是指候选基础同义词集。q是指计算得到的平均相似度。q(S∪{t})是指待挖掘词对应的相似度。q(S)是指候选基础同义词集对应的相似度。f是指同义程度识别模型。即同义程度识别模型会使用一个集合内的所有实体词在向量空间内更加接近,其他集合的实体词离该集合更加远。
在一个实施例中,如图7所示,同义程度识别模型的训练包括以下步骤:
步骤702,获取各个训练同义词集,基于各个训练同义词集确定目标训练同义词集和标签词。
其中,训练同义词集是指训练时使用的同义词的集合。目标训练同义词集是指当前进行训练时使用的同义词集合。标签词是指具有分类标签的词,分类标签包括属于目标训练同义词集类别和不属于目标训练同义词集类别。
具体地,服务器可以从数据库中获取到各个训练同义词集,然后从训练同义词集中随机选取目标训练同义词集和同义词,然后根据同义词是否属于目标训练同义词集得到该同义词的分类标签,得到标签词。
步骤704,计算标签词与目标训练同义词集中的训练同义词的编辑距离,并计算目标训练同义词集中的训练同义词之间的编辑距离,得到各个训练词距离特征。
其中,训练词距离特征是指训练时计算得到的词与词之间的距离特征。
具体地,服务器使用编辑距离算法计算标签词与目标训练同义词集中的每个训练同义词之间的编辑距离,同时计算目标训练同义词集中的训练同义词之间的编辑距离,得到各个训练词距离特征。
步骤706,将标签词和训练同义词分别进行向量化,得到各个训练词向量特征,分别提取标签词和训练同义词的知识表征,得到各个训练词知识特征。
其中,训练词向量特征是指训练时计算得到的词对应的向量特征。训练词知识特征是指训练时计算得到的词知识特征。
具体地,服务器可以使用向量化算法将标签词和训练同义词分别进行向量化,得到各个训练词向量特征。然后服务器可以提取标签词和训练同义词的知识表征,得到各个训练词知识特征。在一个具体的实施例中,可以使用向量化模型将标签词和训练同义词分别进行向量化,得到各个训练词向量特征。服务器可以使用实体转移模型和本体转移模型提取标签词和训练同义词的知识表征,得到各个训练词知识特征,
步骤708,将标签词对应的训练词距离特征、训练词向量特征和训练词知识特征进行融合,得到标签词对应的训练词目标特征,将训练同义词对应的训练词距离特征、训练词向量特征和训练词知识特征进行融合,得到训练同义词对应的训练词目标特征。
具体地,服务器将标签词对应的训练词距离特征、训练词向量特征和词知识特征进行拼接,得到标签词对应的训练词目标特征,同时将训练同义词对应的训练词距离特征、训练词向量特征和训练词知识特征进行拼接,得到训练同义词对应的训练词目标特征。在一个具体的实施例中,将训练词距离特征S,训练词向量特征W和训练词知识特征G进行及联操作,得到训练词目标特征V。
步骤710,将标签词对应的训练词目标特征和训练同义词对应的训练词目标特征输入到初始同义程度识别模型中,得到输出的标签词与目标训练同义词集的初始同义程度。
其中,初始同义程度识别模型是指模型参数初始化的同义词程度识别模型。初始同义程度是指初始模型参数计算的同义程度。
具体地,服务器将标签词对应的训练词目标特征和训练同义词对应的训练词目标特征输入到初始同义程度识别模型中,得到输出的标签词与目标训练同义词集的初始同义程度。在一个具体的实施例中,目标训练同义词集中有n个实体,n为正整数,则一共有n*(n-1)/2个同义词词对。在初始同义程度识别模型中需要进行n*(n-1)/2次判定,即判定目标训练同义词集中的词是否为同义词。
步骤712,基于初始同义程度和标签词对应的训练标签更新初始同义程度识别模型,并返回基于各个训练同义词集确定目标训练同义词集和标签词的步骤迭代执行,直到达到预设训练完成条件时,得到同义程度识别模型。
其中,预设训练完成条件是指预先设置好的同义程度识别模型训练完成的条件,包括,迭代次数达到最大次数、损失函数的值达到预设阈值以及模型参数不再发生变化等等。
具体地,服务器使用预先设置好的损失函数计算初始同义程度和标签词之间的损失信息,使用损失信息通过梯度下降算法反向更新初始同义程度识别模型,并返回基于各个训练同义词集确定目标训练同义词集和标签词的步骤迭代执行,直到达到预设训练完成条件时,得到同义程度识别模型。在一个的实施例中,损失函数可以使用对数似然函数。如下公式(7)所示。
Figure BDA0003054742540000261
其中,L是指损失信息。y_i是指标签词的标签,f是指初始同义程度识别模型,S_i是指目标训练同义词集中训练同义词对应的训练词目标特征,t_i是指标签词对应的训练词目标特征。
在上述实施例中,通过获取各个训练同义词集,从各个训练同义词集中确定目标训练同义词集和标签词,使用目标训练同义词集和标签词来对初始同义程度识别模型中进行训练,当训练完成时,得到同义程度识别模型,能够提高训练的同义程度识别模型的准确性。
在一个实施例中,在得到同义程度识别模型之后,还包括:
获取目标基础同义词集,将目标基础同义词集作为训练同义词集合,并返回获取各个训练同义词集合的步骤重新迭代执行,直到达到预设目标训练条件时,得到目标同义程度识别模型。
具体地,在获取到目标基础同义词集时,即对基础同义词集经过一段时间拓展后,可以使用扩展后的同义词集重新训练同义程度识别模型。即将目标基础同义词集作为训练同义词集合,并返回获取各个训练同义词集合的步骤重新迭代执行,直到达到预设目标训练条件时,得到目标同义程度识别模型。预设目标训练条件是指预先设置好的重新训练同义程度识别模型的完成条件,可以包括迭代次数达到上限次数、损失信息达到预设阈值或者模型参数不再发生变化。即可以不断对待挖掘词进行识别,拓展同义词集合,然后每经过预先设置好的时间间隔就使用拓展同义词集合去重新训练同义程度识别模型。从而能够提高同义程度识别模型进行同义程度识别的准确性。
在一个实施例中,步骤212,即基于待挖掘词与候选基础同义词集的同义程度确定目标基础同义词集,将待挖掘词新增至目标基础同义词集,包括步骤:
当待挖掘词与候选基础同义词集的同义程度超过预设同义词程度阈值时,将候选基础同义词集作为目标基础同义词集,将待挖掘词新增至目标基础同义词集。
具体地,服务器判断待挖掘词与候选基础同义词集的同义程度与预设同义词程度阈值的大小,预设同义词程度阈值是指预先设置好的同义词程度的阈值。当待挖掘词与候选基础同义词集的同义程度超过预设同义词程度阈值时,说明待挖掘词是属于候选基础同义词集中的词,此时将候选基础同义词集作为目标基础同义词集,将待挖掘词新增至目标基础同义词集中。在一个具体的实施例中,当待挖掘词与多个候选基础同义词集的同义程度都超过预设同义词程度阈值时,比较待挖掘词与多个候选基础同义词集的同义程度的大小,选取最大的同义程度对应的候选基础同义词集作为目标基础同义词集,将待挖掘词新增至目标基础同义词集中。
在一个实施例中,步骤212,即基于待挖掘词与候选基础同义词集的同义程度确定目标基础同义词集,将待挖掘词新增至目标基础同义词集,包括步骤:
当待挖掘词与候选基础同义词集的同义程度未超过预设同义词程度阈值时,将待挖掘词作为目标基础同义词集。
具体地,服务器判断待挖掘词与所有候选基础同义词集的同义程度都未超过预设同义词程度阈值时,说明该待挖掘词是不属于当前候选基础同义词集中的词,此时将待挖掘词单独作为一个新的同义词集,即得到目标基础同义词集。
在上述实施例中,通过判断待挖掘词与所有候选基础同义词集的同义程度与预设同义词程度阈值的大小,从而可以确定待挖掘词是否属于候选同义词集,从而得到目标基础同义词集,能够提高效率。
在一个实施例中,如图8所示,提供了一种问答方法,以该方法应用于图1中的服务器为例进行说明,可以理解的是,该方法也可以应用在终端中,还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现。包括以下步骤:
步骤802,获取询问语句,从询问语句中提取非标准询问词。
其中,询问语句是指进行询问的语句,可以是医疗领域的询问语句,比如,可以是疾病如何治疗的询问语句。也可以是金融领域的询问语句,比如,可以是如何投资的询问语句。也可以是教育领域的询问语句,比如,可以是问题请教的询问语句。非标准询问词是指口语化的询问词。
具体地,服务器获取到用户终端发送的询问语句,然后对询问语句进行分词,得到非标准询问词。
步骤804,获取各个同义词集,同义词集是通过获取待挖掘词和候选基础同义词集;计算待挖掘词与候选基础同义词集中的基础同义词的编辑距离,并计算基础同义词集中的基础同义词之间的编辑距离,得到各个词距离特征;将待挖掘词和基础同义词分别进行向量化,得到各个词向量特征,分别提取待挖掘词和基础同义词的知识表征,得到各个词知识特征;将待挖掘词对应的词距离特征、词向量特征和词知识特征进行融合,得到待挖掘词对应的词目标特征,将基础同义词对应的词距离特征、词向量特征和词知识特征进行融合,得到基础同义词对应的词目标特征;基于待挖掘词对应的词目标特征和基础同义词对应的词目标特征计算待挖掘词与候选基础同义词集的同义程度;基于待挖掘词与候选基础同义词集的同义程度确定目标基础同义词集,将待挖掘词新增至目标基础同义词集得到的。
其中,同义词集是指同义词的集合,每个同义词集中都有设定好的标准词。该标准词是专业的词汇,比如,金融领域中可以是金融相关的专业词汇,医疗领域中可以是医疗相关的专业词汇。教育领域可以是教育相关的转移词汇。
具体地,服务器可以使用上述同义词挖掘方法各实施例挖掘得到各个同义词集,比如,可以通过获取待挖掘词和候选基础同义词集,计算待挖掘词与候选基础同义词集中的基础同义词的编辑距离,并计算基础同义词集中的基础同义词之间的编辑距离,得到各个词距离特征。将待挖掘词和基础同义词分别进行向量化,得到各个词向量特征,分别提取待挖掘词和基础同义词的知识表征,得到各个词知识特征。将待挖掘词对应的词距离特征、词向量特征和词知识特征进行融合,得到待挖掘词对应的词目标特征,将基础同义词对应的词距离特征、词向量特征和词知识特征进行融合,得到基础同义词对应的词目标特征。基于待挖掘词对应的词目标特征和基础同义词对应的词目标特征计算待挖掘词与候选基础同义词集的同义程度。基于待挖掘词与候选基础同义词集的同义程度确定目标基础同义词集,将待挖掘词新增至目标基础同义词集,从而挖掘得到各个同义词集。例如,可以通过同义词挖掘方法挖掘得到医疗领域的同义词集合,金融领域的同义词集合以及教育领域的同义词集合等等。
步骤806,在各个同义词集查询非标准询问词对应的目标同义词集。
步骤808,从目标同义词集中获取非标准询问词对应的标准同义词。
其中,目标同义词集是指存在非标准询问词的同义词集。标准同义词是指专业的词汇,是非标准询问词的同义词。
具体地,服务器在各个同义词集查询非标准询问词,当在同义词集查找到非标准询问词时,将对应的同义词集作为目标同义词集。然后从目标同义词集中获取非标准询问词对应的标准同义词。在一个实施例中,当在所有的各个同义词集都未查找到非标准询问词。可以将非标准询问词作为待挖掘词,将各个同义词集作为候选基础同义词,然后使用上述各实施例中的同义词挖掘方法确定非标准询问词属于的同义词集,从而确定目标同义词集,然后再从目标同义词集中获取非标准询问词对应的标准同义词。
步骤810,基于标准同义词从已建立的知识图谱中查询对应的回复词,基于回复词进行回复。
其中,已建立的知识图谱是指预先建立的知识图谱,可以用于知识问答。回复词是用于回复同义词的词。
具体地,服务器使用标准同义词从已建立的知识图谱中查询对应的回复词,基于回复词进行回复。比如,可以建立医疗领域的知识图谱,当获取到医疗领域的标准同义词时,可以在医疗领域的知识图谱中查询对应的回复词。也可以建立金融领域的知识图谱,当获取到金融领域的标准同义词时,可以在金融领域的知识图谱中查询对应的回复词。还可以建立教育领域的知识图谱,当获取到教育领域的标准同义词时,可以在教育领域的知识图谱中查询对应的回复词。
上述问答方法,通过使用询问语句中的非标准询问词查询到对应的目标同义词集,然后从目标同义词集中获取非标准询问词对应的标准同义词,最后使用标准同义词从已建立的知识图谱中查询对应的回复词,基于回复词进行回复。即能够对非标准的询问语句查询到对应的标准同义词,然后使用标准同义词查询到对应的回复词,进而使用回复词进行回复,能够提高对询问语句答复的准确性。
在一个实施例中,所述方法还包括:
将目标同义词集中的目标同义词新增至已建立的知识图谱中,得到目标知识图谱。
具体地,服务器还可以将目标同义词集中的目标同义词新增至已建立的知识图谱中,即可以将目标同义词集中的目标同义词作为知识图谱中标准同义词的同义实体来补充知识图谱,得到目标知识图谱。从而能够提高得到的目标知识图谱的准确性。
在一个实施例中,询问语句包括医学症状询问语句;
步骤804,分别提取待挖掘词和基础同义词的知识表征,得到各个词知识特征,包括步骤:
将待挖掘医学症状词和基础医学症状同义词分别输入到医学症状实体转移模型中进行语义信息提取,得到各个医学症状词语义特征,医学症状实体转移模型是基于已建立的医学症状实体知识图谱中的医学症状实体三元组建立的转移模型;将各个医学症状词语义知识特征输入到医学症状本体转移模型中进行知识增强,得到包含有医学症状本体知识信息的各个医学症状词知识特征,医学症状本体转移模型是基于已建立的医学症状本体知识图谱中的医学症状本体三元组建立的转移模型。
其中,医学症状询问语句是指描述医学疾病症状并进行询问的语句。医学症状词语义特征是指医学症状词对应的语义特征。医学症状词知识特征是指医学症状词对应的增强后的语义特征。医学症状实体知识图谱是指以医学症状词为实体的知识图谱。医学症状本体知识图谱是指以医学症状词为本体的知识图谱。
具体地,服务器可以进行医学症状的问答处理,即获取到医学症状询问语句,从医学症状询问语句中提取非标准医学症状询问词。获取各个医学症状同义词集,在各个医学症状同义词集查询非标准医学症状询问词对应的目标医学症状同义词集。从目标医学症状同义词集中获取非标准医学症状询问词对应的标准医学症状同义词。基于标准医学症状同义词从已建立的医学症状知识图谱中查询对应的医学症状回复词,基于医学症状回复词进行回复。比如,获取到的医学症状询问语句可以是“我头有点痛,该吃什么药”。然后得到的回复语句可以是“您可以使用XX药进行治疗”。
其中,在进行各个医学症状同义词集挖掘时,可以将待挖掘医学症状词和基础医学症状同义词分别输入到医学症状实体转移模型中进行语义信息提取,得到各个医学症状词语义特征,医学症状实体转移模型是基于已建立的医学症状实体知识图谱中的医学症状实体三元组建立的转移模型;将各个医学症状词语义知识特征输入到医学症状本体转移模型中进行知识增强,得到包含有医学症状本体知识信息的各个医学症状词知识特征,医学症状本体转移模型是基于已建立的医学症状本体知识图谱中的医学症状本体三元组建立的转移模型。在一个实施例中,医学症状本体转移模型可以让同属于一个类别或者概念的所有实体尽量都在圆心为p半径为m的这个圆形空间内,这样可以增强实体的表达。例如“新冠肺炎”实体通过医学症状本体转移模型进行知识增强时会同时靠近“肺部疾病”、“传染病”、“疾病”这三个类别,这样对于“新冠肺炎”的知识表征会更有表达能力,该“新冠肺炎”对应的医学症状词知识特征蕴含了类别的信息。
在上述实施例中,通过医学症状实体转移模型和医学症状本体转移模型提取得到医学症状词知识特征,从而使提取得到的医学症状词知识特征包含有医学类别的知识信息,从而提高了得到的医学症状词知识特征的准确性。
在一个具体的实施例中,如图9所示,提供一种同义词挖掘方法,具体包括以下步骤:
步骤902,获取待挖掘词和候选基础同义词集。
步骤904,计算将待挖掘词转换为基础同义词时对应的第一最少编辑操作次数,将第一最小编辑操作次数作为待挖掘词与基础同义词的编辑距离,计算将候选基础同义词集中的第一基础同义词转换为候选基础同义词集中的第二基础同义词时对应的第二最少编辑操作次数,将第二最小编辑操作次数作为基础同义词集中的基础同义词之间的编辑距离。
步骤906,将待挖掘词和基础同义词分别输入到向量化模型中进行向量化,得到等维度的各个词向量特征。
步骤908,将待挖掘词和基础同义词分别输入到实体转移模型中进行语义信息提取,得到各个词语义特征,将各个词语义知识特征输入到本体转移模型中进行知识增强,得到包含有本体知识信息的各个词知识特征。
步骤910,将待挖掘词对应的词距离特征、词向量特征和词知识特征进行拼接,得到待挖掘词对应的词目标特征,将基础同义词对应的词距离特征、词向量特征和词知识特征进行拼接,得到基础同义词对应的词目标特征。
步骤912,将待挖掘词对应的词目标特征和基础同义词对应的词目标特征输入到同义程度识别模型中,得到输出待挖掘词与候选基础同义词集的同义程度。
步骤914,当待挖掘词与候选基础同义词集的同义程度超过预设同义词程度阈值时,将候选基础同义词集作为目标基础同义词集,将待挖掘词新增至目标基础同义词集。
如本申请所公开的同义词挖掘方法,其中这些同义词数据可保存于区块链上。
在一个具体的实施例中,对本申请的同义词挖掘方法使用五折交叉验证算法进行对比测试。具体来说:
获取到置信度较高的医疗症状同义词集合作为数据集,将数据集5等分,不重复地选择其中一份作为测试集,另外四份作为训练集进行训练,然后进行对比测试。得到的测试结果如下表1所示。
表1对比测试结果表
Figure BDA0003054742540000321
其中,明显可以看出本发明提出的同义词挖掘方法所有指标明显优于现有技术,即本申请对同义词挖掘的性能有了大幅提高。通过本申请已构建了超过7000个医疗症状同义词集合。
本申请还提供一种应用场景,该应用场景应用上述的同义词挖掘方法。具体地,应用在医疗领域中对医疗症状的同义词进行挖掘,如图10所示,为同义词挖掘的框架示意图,其中,服务器获取到要挖掘的医学实体词列表和已建立的医学同义词集合。其中,可以使用已建立的医学同义词集合进行训练得到实体和集合的判别分类器f,即同义程度识别模型f。然后可以使用同义程度识别模型f进行预测。即获取到要挖掘的实体词t以及候选医学同义词集s,通过提取实体词t以及候选医学同义词集s的距离特征,得到各个词距离特征,将要挖掘的实体词t以及候选医学同义词集s输入到向量化模型中进行向量化后得到各个词向量特征,然后通过将要挖掘的实体词t以及候选医学同义词集s输入到通过外部知识图谱使用TransE算法和TransC算法建立的转移模型,得到各个词知识特征。然后将待挖掘词对应的词距离特征、词向量特征和词知识特征进行融合,得到待挖掘词对应的词目标特征,将基础同义词对应的词距离特征、词向量特征和词知识特征进行融合,得到基础同义词对应的词目标特征,将待挖掘词对应的词目标特征和基础同义词对应的词目标特征输入到同义程度识别模型f中,得到输出的要挖掘的实体词t以及候选医学同义词集s的同义程度Pr,然后当同义程度超过预设阈值时,将实体词t归纳到候选医学同义词集s中,得到拓展后的医学同义词集,然后将医学实体词列表中每个医学实体词都归纳到医学同义词集合中,然后使用拓展后的医学同义词集合作为下一轮的同义词集合并重新训练同义程度识别模型,得到重新训练的同义程度识别模型,然后在使用重新训练的同义程度识别模型进行预测,然后不断进行训练迭代,从而可以不断进行同义词集合的拓展,提高了准确性和效率。在一个具体实施例中,也可以对医学症状之外的领域进行同义词挖掘,比如对疾病同义词进行挖掘,对药物同义词进行挖掘,对医学检查项同义词进行挖掘等等。服务器将挖掘的医疗领域的同义词集合进行保存。然后将医疗领域的同义词集合应用到在线问诊场景中,比如,服务器可以获取到疾病如何治疗的询问语句,例如,可以“着凉了要吃什么药”,服务器从医疗领域的同义词集合查找到“着凉”的标准同义词“感冒”。根据标准同义词“感冒”从已建立的医疗知识图谱中查找“感冒”对应的回复词,然后得到包含回复词的回复语句,使用回复语句进行在线问诊回复,从而能够使用户得到更加准确的问诊结果。
在一个具体的实施例中,服务器还可以将挖掘的医疗领域的同义词集合进行保存,然后将医疗领域的同义词集合应用到医学知识查询场景中,具体来说:服务器获取到用户终端发送的医学查询语句,例如:“得到高血压怎么办”从医学查询语句中提取医学查询词“高血压”,然后从医疗领域的同义词集合中查找到医学查询词“高血压”对应的目标同义词集合,然后使用目标同义词集合中的每个同义词都进行查询,得到各个查询结果,比如,使用“高血压”以及同义词“高血压病”,“高血压症”进行查询,得到各个查询结果,例如“可以使用XX降压药治疗”等等,然后将各个查询结果返回给用户终端进行展示,提高了查询结果的准确性。
应该理解的是,虽然图2-图9的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-图9中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图11所示,提供了一种同义词挖掘装置1100,该装置可以采用软件模块或硬件模块,或者是二者的结合成为计算机设备的一部分,该装置具体包括:获取模块1102、距离计算模块1104、特征提取模块1106、目标特征得到模块1108、同义计算模块1110和目标集得到模块1112,其中:
获取模块1102,用于获取待挖掘词和候选基础同义词集;
距离计算模块1104,用于计算待挖掘词与候选基础同义词集中的基础同义词的编辑距离,并计算基础同义词集中的基础同义词之间的编辑距离,得到各个词距离特征;
特征提取模块1106,用于将待挖掘词和基础同义词分别进行向量化,得到各个词向量特征,分别提取待挖掘词和基础同义词的知识表征,得到各个词知识特征;
目标特征得到模块1108,用于将待挖掘词对应的词距离特征、词向量特征和词知识特征进行融合,得到待挖掘词对应的词目标特征,将基础同义词对应的词距离特征、词向量特征和词知识特征进行融合,得到基础同义词对应的词目标特征;
同义计算模块1110,用于基于待挖掘词对应的词目标特征和基础同义词对应的词目标特征计算待挖掘词与候选基础同义词集的同义程度;
目标集得到模块1112,用于基于待挖掘词与候选基础同义词集的同义程度确定目标基础同义词集,将待挖掘词新增至目标基础同义词集。
在一个实施例中,距离计算模块1104还用于计算将待挖掘词转换为基础同义词时对应的第一最少编辑操作次数,将第一最小编辑操作次数作为待挖掘词与基础同义词的编辑距离;计算将候选基础同义词集中的第一基础同义词转换为候选基础同义词集中的第二基础同义词时对应的第二最少编辑操作次数,将第二最小编辑操作次数作为基础同义词集中的基础同义词之间的编辑距离。
在一个实施例中,特征提取模块1106还用于将待挖掘词和基础同义词分别输入到向量化模型中进行向量化,得到等维度的各个词向量特征。
在一个实施例中,特征提取模块1106还用于将待挖掘词和基础同义词分别输入到实体转移模型中进行语义信息提取,得到各个词语义特征,实体转移模型是基于已建立的实体知识图谱中的实体三元组建立的转移模型;将各个词语义知识特征输入到本体转移模型中进行知识增强,得到包含有本体知识信息的各个词知识特征,本体转移模型是基于已建立的本体知识图谱中的本体三元组建立的转移模型。
在一个实施例中,同义词挖掘装置1100,还包括:
实体模型训练模块,用于从已建立的实体知识图谱中获取正确实体三元组和错误实体三元组;将正确实体三元组和错误实体三元组输入到初始实体转移模型中,得到初始正确实体三元组向量和初始错误实体三元组向量;基于初始正确实体三元组向量进行距离计算,得到初始正确实体距离,并基于初始错误实体三元组进行距离计算,得到初始错误实体距离;基于初始正确实体距离和初始错误实体距离计算得到距离误差,基于距离误差更新初始实体转移模型,得到更新实体转移模型;将更新实体转移模型作为初始实体转移模型,并返回获取正确实体三元组和错误实体三元组的步骤迭代执行,直到达到预设实体训练完成条件时,得到实体转移模型。
在一个实施例中,同义词挖掘装置1100,还包括:
本体模型训练模块,用于从已建立的本体知识图谱中获取类别信息、关系信息、正确本体三元组和错误本体三元组;将类别信息、关系信息、正确本体三元组和错误本体三元组输入到初始本体转移模型中,初始本体转移模型将类别信息和关系信息输入初始本体网络中,初始本体网络基于类别信息和关系信息确定类别信息对应的初始本体范围参数,将初始本体范围参数和正确本体三元组和错误本体三元组输入到初始本体融合网络中,初始本体融合网络输出初始正确本体三元组向量和初始错误本体三元组向量;基于初始正确本体三元组向量和对应的初始本体范围参数进行损失计算,得到初始正确本体误差,并基于初始错误本体三元组向量和对应的初始本体参数进行损失计算,得到初始错误本体误差;基于初始正确本体误差和初始错误本体误差计算得到目标损失信息,基于目标损失信息更新初始本体转移模型,得到更新本体转移模型;将更新本体转移模型作为初始本体转移模型,并返回从已建立的本体知识图谱中获取类别信息、关系信息、正确本体三元组和错误本体三元组的步骤迭代执行,直到达到预设本体训练完成条件时,得到本体转移模型。
在一个实施例中,目标特征得到模块1108还用于将待挖掘词对应的词距离特征、词向量特征和词知识特征进行拼接,得到待挖掘词对应的词目标特征;将基础同义词对应的词距离特征、词向量特征和词知识特征进行拼接,得到基础同义词对应的词目标特征。
在一个实施例中,同义计算模块1110还用于基于基础同义词对应的词目标特征进行平均特征相似度计算,得到候选基础同义词集对应的相似度;基于待挖掘词对应的词目标特征和基础同义词对应的词目标特征进行平均特征相似度计算,得到待挖掘词对应的相似度;计算候选基础同义词集对应的相似度与待挖掘词对应的相似度的差值,基于差值确定待挖掘词与候选基础同义词集的同义程度。
在一个实施例中,同义计算模块1110还用于计算基础同义词对应的词目标特征之间的同义词余弦相似度;并计算同义词余弦相似度的平均值,得到候选基础同义词集对应的相似度。
在一个实施例中,同义计算模块1110还用于计算待挖掘词对应的词目标特征分别与基础同义词对应的词目标特征的待挖掘词余弦相似度;并计算待挖掘词余弦相似度和同义词余弦相似度的平均值,得到待挖掘词对应的相似度。
在一个实施例中,同义计算模块1110还用于将待挖掘词对应的词目标特征和基础同义词对应的词目标特征输入到同义程度识别模型中;同义程度识别模型通过全连接网络基于基础同义词对应的词目标特征进行平均特征相似度计算,得到候选基础同义词集对应的相似度,并基于待挖掘词对应的词目标特征和基础同义词对应的词目标特征进行平均特征相似度计算,得到待挖掘词对应的相似度,计算候选基础同义词集对应的相似度与待挖掘词对应的相似度的差值,并将相差值通过非线性映射网络进行非线性映射,得到待挖掘词与候选基础同义词集的同义程度。
在一个实施例中,同义词挖掘装置1100,还包括:
同义模型训练模块,用于获取各个训练同义词集,基于各个训练同义词集确定目标训练同义词集和标签词;计算标签词与目标训练同义词集中的训练同义词的编辑距离,并计算目标训练同义词集中的训练同义词之间的编辑距离,得到各个训练词距离特征;将标签词和训练同义词分别进行向量化,得到各个训练词向量特征,分别提取标签词和训练同义词的知识表征,得到各个训练词知识特征;将标签词对应的训练词距离特征、训练词向量特征和训练词知识特征进行融合,得到标签词对应的训练词目标特征,将训练同义词对应的训练词距离特征、训练词向量特征和训练词知识特征进行融合,得到训练同义词对应的训练词目标特征;将标签词对应的训练词目标特征和训练同义词对应的训练词目标特征输入到初始同义程度识别模型中,得到输出的标签词与目标训练同义词集的初始同义程度;基于初始同义程度和标签词对应的训练标签更新初始同义程度识别模型,并返回基于各个训练同义词集确定目标训练同义词集和标签词的步骤迭代执行,直到达到预设训练完成条件时,得到同义程度识别模型。
在一个实施例中,同义词挖掘装置1100,还包括:
迭代训练模块,用于获取目标基础同义词集,将目标基础同义词集作为训练同义词集合,并返回获取各个训练同义词集合的步骤重新迭代执行,直到达到预设目标训练条件时,得到目标同义程度识别模型。
在一个实施例中,目标集得到模块1112还用于当待挖掘词与候选基础同义词集的同义程度超过预设同义词程度阈值时,将候选基础同义词集作为目标基础同义词集,将待挖掘词新增至目标基础同义词集。
在一个实施例中,目标集得到模块1112还用于当待挖掘词与候选基础同义词集的同义程度未超过预设同义词程度阈值时,将待挖掘词作为目标基础同义词集。
在一个实施例中,如图12所示,提供了一种问答装置1200,该装置可以采用软件模块或硬件模块,或者是二者的结合成为计算机设备的一部分,该装置具体包括:语句获取模块1202、词提取模块1204、词集获取模块1206、查询模块1208、标准词获取模块1210和回复模块1212,其中,
语句获取模块1202,用于获取询问语句;
词提取模块1204,用于从询问语句中提取非标准询问词;
词集获取模块1206,用于获取各个同义词集,同义词集是通过获取待挖掘词和候选基础同义词集;计算待挖掘词与候选基础同义词集中的基础同义词的编辑距离,并计算基础同义词集中的基础同义词之间的编辑距离,得到各个词距离特征;将待挖掘词和基础同义词分别进行向量化,得到各个词向量特征,分别提取待挖掘词和基础同义词的知识表征,得到各个词知识特征;将待挖掘词对应的词距离特征、词向量特征和词知识特征进行融合,得到待挖掘词对应的词目标特征,将基础同义词对应的词距离特征、词向量特征和词知识特征进行融合,得到基础同义词对应的词目标特征;基于待挖掘词对应的词目标特征和基础同义词对应的词目标特征计算待挖掘词与候选基础同义词集的同义程度;基于待挖掘词与候选基础同义词集的同义程度确定目标基础同义词集,将待挖掘词新增至目标基础同义词集得到的;
查询模块1208,用于在各个同义词集查询非标准询问词对应的目标同义词集;
标准词获取模块110,用于从目标同义词集中获取非标准询问词对应的标准同义词;
回复模块1212,用于基于标准同义词从已建立的知识图谱中查询对应的回复词,基于回复词进行回复。
在一个实施例中,问答装置1200还包括:
目标图谱得到模块,用于将目标同义词集中的目标同义词新增至已建立的知识图谱中,得到目标知识图谱。
在一个实施例中,询问语句包括医学症状询问语句;
词集获取模块1206还用于将待挖掘医学症状词和基础医学症状同义词分别输入到医学症状实体转移模型中进行语义信息提取,得到各个医学症状词语义特征,医学症状实体转移模型是基于已建立的医学症状实体知识图谱中的医学症状实体三元组建立的转移模型;将各个医学症状词语义知识特征输入到医学症状本体转移模型中进行知识增强,得到包含有医学症状本体知识信息的各个医学症状词知识特征,医学症状本体转移模型是基于已建立的医学症状本体知识图谱中的医学症状本体三元组建立的转移模型。
关于同义词挖掘装置和问答装置的具体限定可以参见上文中对于同义词挖掘方法和问答方法的限定,在此不再赘述。上述同义词挖掘装置和问答装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图13所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储训练同义词集数据、知识图谱数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种同义词挖掘方法和问答方法。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图14所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种同义词挖掘方法和问答方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图13和图14中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (15)

1.一种同义词挖掘方法,其特征在于,所述方法包括:
获取待挖掘词和候选基础同义词集;
计算所述待挖掘词与所述候选基础同义词集中的基础同义词的编辑距离,并计算所述基础同义词集中的基础同义词之间的编辑距离,得到各个词距离特征;
将所述待挖掘词和所述基础同义词分别进行向量化,得到各个词向量特征,分别提取所述待挖掘词和所述基础同义词的知识表征,得到各个词知识特征;
将所述待挖掘词对应的词距离特征、词向量特征和词知识特征进行融合,得到所述待挖掘词对应的词目标特征,将所述基础同义词对应的词距离特征、词向量特征和词知识特征进行融合,得到所述基础同义词对应的词目标特征;
基于所述待挖掘词对应的词目标特征和所述基础同义词对应的词目标特征计算所述待挖掘词与所述候选基础同义词集的同义程度;
基于所述待挖掘词与候选基础同义词集的同义程度确定目标基础同义词集,将所述待挖掘词新增至所述目标基础同义词集。
2.根据权利要求1所述的方法,其特征在于,所述计算所述待挖掘词与所述候选基础同义词集中的基础同义词的编辑距离,并计算所述基础同义词集中的基础同义词之间的编辑距离,包括:
计算将所述待挖掘词转换为所述基础同义词时对应的第一最少编辑操作次数,将所述第一最小编辑操作次数作为所述待挖掘词与所述基础同义词的编辑距离;
计算将所述候选基础同义词集中的第一基础同义词转换为所述候选基础同义词集中的第二基础同义词时对应的第二最少编辑操作次数,将所述第二最小编辑操作次数作为所述基础同义词集中的基础同义词之间的编辑距离。
3.根据权利要求1所述的方法,其特征在于,所述将所述待挖掘词和所述基础同义词分别进行向量化,得到各个词向量特征,包括:
将所述待挖掘词和所述基础同义词分别输入到向量化模型中进行向量化,得到等维度的各个词向量特征。
4.根据权利要求1所述的方法,其特征在于,分别提取所述待挖掘词和所述基础同义词的知识表征,得到各个词知识特征;包括:
将所述待挖掘词和所述基础同义词分别输入到实体转移模型中进行语义信息提取,得到各个词语义特征,所述实体转移模型是基于已建立的实体知识图谱中的实体三元组建立的转移模型;
将所述各个词语义知识特征输入到本体转移模型中进行知识增强,得到包含有本体知识信息的各个词知识特征,所述本体转移模型是基于已建立的本体知识图谱中的本体三元组建立的转移模型。
5.根据权利要求4所述的方法,其特征在于,所述实体转移模型的训练包括以下步骤:
从已建立的实体知识图谱中获取正确实体三元组和错误实体三元组;
将所述正确实体三元组和所述错误实体三元组输入到初始实体转移模型中,得到初始正确实体三元组向量和初始错误实体三元组向量;
基于所述初始正确实体三元组向量进行距离计算,得到初始正确实体距离,并基于所述初始错误实体三元组进行距离计算,得到初始错误实体距离;
基于所述初始正确实体距离和所述初始错误实体距离计算得到距离误差,基于所述距离误差更新所述初始实体转移模型,得到更新实体转移模型;
将所述更新实体转移模型作为所述初始实体转移模型,并返回获取正确实体三元组和错误实体三元组的步骤迭代执行,直到达到预设实体训练完成条件时,得到所述实体转移模型。
6.根据权利要求4所述的方法,其特征在于,所述本体转移模型的训练包括以下步骤:
从已建立的本体知识图谱中获取类别信息、关系信息、正确本体三元组和错误本体三元组;
将所述类别信息、关系信息、正确本体三元组和错误本体三元组输入到初始本体转移模型中,所述初始本体转移模型将所述类别信息和所述关系信息输入初始本体网络中,所述初始本体网络基于所述类别信息和所述关系信息确定所述类别信息对应的初始本体范围参数,将所述初始本体范围参数和所述正确本体三元组和错误本体三元组输入到初始本体融合网络中,所述初始本体融合网络输出初始正确本体三元组向量和初始错误本体三元组向量;
基于所述初始正确本体三元组向量和对应的初始本体范围参数进行损失计算,得到初始正确本体误差,并基于所述初始错误本体三元组向量和对应的初始本体参数进行损失计算,得到初始错误本体误差;
基于所述初始正确本体误差和所述初始错误本体误差计算得到目标损失信息,基于所述目标损失信息更新所述初始本体转移模型,得到更新本体转移模型;
将更新本体转移模型作为所述初始本体转移模型,并返回从已建立的本体知识图谱中获取类别信息、关系信息、正确本体三元组和错误本体三元组的步骤迭代执行,直到达到预设本体训练完成条件时,得到所述本体转移模型。
7.根据权利要求1所述的方法,其特征在于,所述基于所述待挖掘词对应的词目标特征和所述基础同义词对应的词目标特征计算所述待挖掘词与所述候选基础同义词集的同义程度,包括:
基于所述基础同义词对应的词目标特征进行平均特征相似度计算,得到所述候选基础同义词集对应的相似度;
基于所述待挖掘词对应的词目标特征和所述基础同义词对应的词目标特征进行平均特征相似度计算,得到所述待挖掘词对应的相似度;
计算所述候选基础同义词集对应的相似度与所述待挖掘词对应的相似度的差值,基于所述差值确定所述待挖掘词与所述候选基础同义词集的同义程度。
8.根据权利要求1所述的方法,其特征在于,所述基于所述待挖掘词对应的词目标特征和所述基础同义词对应的词目标特征计算所述待挖掘词与所述候选基础同义词集的同义程度,包括:
将所述待挖掘词对应的词目标特征和所述基础同义词对应的词目标特征输入到同义程度识别模型中;
所述同义程度识别模型通过全连接网络基于所述基础同义词对应的词目标特征进行平均特征相似度计算,得到所述候选基础同义词集对应的相似度,并基于所述待挖掘词对应的词目标特征和所述基础同义词对应的词目标特征进行平均特征相似度计算,得到所述待挖掘词对应的相似度,计算所述候选基础同义词集对应的相似度与所述待挖掘词对应的相似度的差值,并将所述相差值通过非线性映射网络进行非线性映射,得到所述待挖掘词与所述候选基础同义词集的同义程度。
9.根据权利要求8所述的方法,其特征在于,所述同义程度识别模型的训练包括以下步骤:
获取各个训练同义词集,基于所述各个训练同义词集确定目标训练同义词集和标签词;
计算所述标签词与所述目标训练同义词集中的训练同义词的编辑距离,并计算所述目标训练同义词集中的训练同义词之间的编辑距离,得到各个训练词距离特征;
将所述标签词和所述训练同义词分别进行向量化,得到各个训练词向量特征,分别提取所述标签词和所述训练同义词的知识表征,得到各个训练词知识特征;
将所述标签词对应的训练词距离特征、训练词向量特征和训练词知识特征进行融合,得到所述标签词对应的训练词目标特征,将所述训练同义词对应的训练词距离特征、训练词向量特征和训练词知识特征进行融合,得到所述训练同义词对应的训练词目标特征;
将所述标签词对应的训练词目标特征和所述训练同义词对应的训练词目标特征输入到初始同义程度识别模型中,得到输出的所述标签词与所述目标训练同义词集的初始同义程度;
基于所述初始同义程度和所述标签词对应的训练标签更新所述初始同义程度识别模型,并返回基于所述各个训练同义词集确定目标训练同义词集和标签词的步骤迭代执行,直到达到预设训练完成条件时,得到所述同义程度识别模型。
10.一种问答方法,其特征在于,所述方法包括:
获取询问语句;
从所述询问语句中提取非标准询问词;
获取各个同义词集,所述同义词集是通过获取待挖掘词和候选基础同义词集;计算所述待挖掘词与所述候选基础同义词集中的基础同义词的编辑距离,并计算所述基础同义词集中的基础同义词之间的编辑距离,得到各个词距离特征;将所述待挖掘词和所述基础同义词分别进行向量化,得到各个词向量特征,分别提取所述待挖掘词和所述基础同义词的知识表征,得到各个词知识特征;将所述待挖掘词对应的词距离特征、词向量特征和词知识特征进行融合,得到所述待挖掘词对应的词目标特征,将所述基础同义词对应的词距离特征、词向量特征和词知识特征进行融合,得到所述基础同义词对应的词目标特征;基于所述待挖掘词对应的词目标特征和所述基础同义词对应的词目标特征计算所述待挖掘词与所述候选基础同义词集的同义程度;基于所述待挖掘词与候选基础同义词集的同义程度确定目标基础同义词集,将所述待挖掘词新增至所述目标基础同义词集得到的;
在所述各个同义词集查询所述非标准询问词对应的目标同义词集;
从所述目标同义词集中获取所述非标准询问词对应的标准同义词;
基于所述标准同义词从已建立的知识图谱中查询对应的回复词,基于所述回复词进行回复。
11.根据权利要求10所述的方法,其特征在于,所述询问语句包括医学症状询问语句;
所述分别提取所述待挖掘词和所述基础同义词的知识表征,得到各个词知识特征,包括:
将所述待挖掘医学症状词和所述基础医学症状同义词分别输入到医学症状实体转移模型中进行语义信息提取,得到各个医学症状词语义特征,所述医学症状实体转移模型是基于已建立的医学症状实体知识图谱中的医学症状实体三元组建立的转移模型;
将所述各个医学症状词语义知识特征输入到医学症状本体转移模型中进行知识增强,得到包含有医学症状本体知识信息的各个医学症状词知识特征,所述医学症状本体转移模型是基于已建立的医学症状本体知识图谱中的医学症状本体三元组建立的转移模型。
12.一种同义词挖掘装置,其特征在于,所述装置包括:
获取模块,用于获取待挖掘词和候选基础同义词集;
距离计算模块,用于计算所述待挖掘词与所述候选基础同义词集中的基础同义词的编辑距离,并计算所述基础同义词集中的基础同义词之间的编辑距离,得到各个词距离特征;
特征提取模块,用于将所述待挖掘词和所述基础同义词分别进行向量化,得到各个词向量特征,分别提取所述待挖掘词和所述基础同义词的知识表征,得到各个词知识特征;
目标特征得到模块,用于将所述待挖掘词对应的词距离特征、词向量特征和词知识特征进行融合,得到所述待挖掘词对应的词目标特征,将所述基础同义词对应的词距离特征、词向量特征和词知识特征进行融合,得到所述基础同义词对应的词目标特征;
同义计算模块,用于基于所述待挖掘词对应的词目标特征和所述基础同义词对应的词目标特征计算所述待挖掘词与所述候选基础同义词集的同义程度;
目标集得到模块,用于基于所述待挖掘词与候选基础同义词集的同义程度确定目标基础同义词集,将所述待挖掘词新增至所述目标基础同义词集。
13.一种问答装置,其特征在于,所述装置包括:
语句获取模块,用于获取询问语句;
词提取模块,用于从所述询问语句中提取非标准询问词;
词集获取模块,用于获取各个同义词集,所述同义词集是通过获取待挖掘词和候选基础同义词集;计算所述待挖掘词与所述候选基础同义词集中的基础同义词的编辑距离,并计算所述基础同义词集中的基础同义词之间的编辑距离,得到各个词距离特征;将所述待挖掘词和所述基础同义词分别进行向量化,得到各个词向量特征,分别提取所述待挖掘词和所述基础同义词的知识表征,得到各个词知识特征;将所述待挖掘词对应的词距离特征、词向量特征和词知识特征进行融合,得到所述待挖掘词对应的词目标特征,将所述基础同义词对应的词距离特征、词向量特征和词知识特征进行融合,得到所述基础同义词对应的词目标特征;基于所述待挖掘词对应的词目标特征和所述基础同义词对应的词目标特征计算所述待挖掘词与所述候选基础同义词集的同义程度;基于所述待挖掘词与候选基础同义词集的同义程度确定目标基础同义词集,将所述待挖掘词新增至所述目标基础同义词集得到的;
查询模块,用于在所述各个同义词集查询所述非标准询问词对应的目标同义词集;
标准词获取模块,用于从所述目标同义词集中获取所述非标准询问词对应的标准同义词;
回复模块,用于基于所述标准同义词从已建立的知识图谱中查询对应的回复词,基于所述回复词进行回复。
14.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至11中任一项所述的方法的步骤。
15.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至11中任一项所述的方法的步骤。
CN202110496948.0A 2021-05-07 2021-05-07 同义词挖掘、问答方法、装置、计算机设备和存储介质 Pending CN113761151A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110496948.0A CN113761151A (zh) 2021-05-07 2021-05-07 同义词挖掘、问答方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110496948.0A CN113761151A (zh) 2021-05-07 2021-05-07 同义词挖掘、问答方法、装置、计算机设备和存储介质

Publications (1)

Publication Number Publication Date
CN113761151A true CN113761151A (zh) 2021-12-07

Family

ID=78787117

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110496948.0A Pending CN113761151A (zh) 2021-05-07 2021-05-07 同义词挖掘、问答方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN113761151A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114153995A (zh) * 2022-02-09 2022-03-08 杭州太美星程医药科技有限公司 医学术语的处理方法、装置、计算机设备和存储介质
CN117807252A (zh) * 2024-02-29 2024-04-02 创意信息技术股份有限公司 一种基于知识图谱的数据处理方法、装置、系统及存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114153995A (zh) * 2022-02-09 2022-03-08 杭州太美星程医药科技有限公司 医学术语的处理方法、装置、计算机设备和存储介质
CN117807252A (zh) * 2024-02-29 2024-04-02 创意信息技术股份有限公司 一种基于知识图谱的数据处理方法、装置、系统及存储介质
CN117807252B (zh) * 2024-02-29 2024-04-30 创意信息技术股份有限公司 一种基于知识图谱的数据处理方法、装置、系统及存储介质

Similar Documents

Publication Publication Date Title
CN116775847B (zh) 一种基于知识图谱和大语言模型的问答方法和系统
CN112015868B (zh) 基于知识图谱补全的问答方法
CN110457708B (zh) 基于人工智能的词汇挖掘方法、装置、服务器及存储介质
TW201837746A (zh) 特徵向量的產生、搜索方法、裝置及電子設備
CN111858940B (zh) 一种基于多头注意力的法律案例相似度计算方法及系统
CN112131883B (zh) 语言模型训练方法、装置、计算机设备和存储介质
CN113268609A (zh) 基于知识图谱的对话内容推荐方法、装置、设备及介质
US11461613B2 (en) Method and apparatus for multi-document question answering
CN112632258A (zh) 文本数据处理方法、装置、计算机设备和存储介质
CN112380867A (zh) 文本处理、知识库的构建方法、装置和存储介质
CN115062134B (zh) 知识问答模型训练及知识问答方法、装置和计算机设备
CN113761151A (zh) 同义词挖掘、问答方法、装置、计算机设备和存储介质
CN115730597A (zh) 多级语义意图识别方法及其相关设备
CN112214595A (zh) 类别确定方法、装置、设备及介质
CN113342944B (zh) 一种语料泛化方法、装置、设备及存储介质
CN113761124A (zh) 文本编码模型的训练方法、信息检索方法及设备
CN117435685A (zh) 文档检索方法、装置、计算机设备、存储介质和产品
CN113536784A (zh) 文本处理方法、装置、计算机设备和存储介质
CN117076636A (zh) 一种智能客服的信息查询方法、系统和设备
CN116956925A (zh) 电子病历命名实体识别方法和装置、电子设备及存储介质
CN114398903B (zh) 意图识别方法、装置、电子设备及存储介质
CN116680407A (zh) 一种知识图谱的构建方法及装置
CN113779202B (zh) 命名实体识别方法、装置、计算机设备和存储介质
CN113468311B (zh) 一种基于知识图谱的复杂问句问答方法、装置及存储介质
CN112749251B (zh) 文本处理方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination