CN114579710A - 一种高速列车问题查询模板生成方法 - Google Patents

一种高速列车问题查询模板生成方法 Download PDF

Info

Publication number
CN114579710A
CN114579710A CN202210252076.8A CN202210252076A CN114579710A CN 114579710 A CN114579710 A CN 114579710A CN 202210252076 A CN202210252076 A CN 202210252076A CN 114579710 A CN114579710 A CN 114579710A
Authority
CN
China
Prior art keywords
question
user
word
vector
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210252076.8A
Other languages
English (en)
Other versions
CN114579710B (zh
Inventor
张海柱
黎荣
丁国富
王淑营
马自立
江磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southwest Jiaotong University
Original Assignee
Southwest Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southwest Jiaotong University filed Critical Southwest Jiaotong University
Priority to CN202210252076.8A priority Critical patent/CN114579710B/zh
Publication of CN114579710A publication Critical patent/CN114579710A/zh
Application granted granted Critical
Publication of CN114579710B publication Critical patent/CN114579710B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种高速列车问题查询模板生成方法。该方法首先对用户输入的用户问句进行分词以及停词,将用户问句转换为相关词的词序列,对词序列分别进行句型特征、用户特征以及词向量特征的提取以及融合,并将三个特征融合而成的向量作为用户问句的特征总向量输入到分类模型进行问题方向的预测,输出语义方向标签。将输出的语义方向标签与模板库进行匹配,当匹配到相应的模板库后提取出模板库内的问句模板;然后将用户问句作句法分析和词性标注,得到用户问句的词性句法分析树,将其与提取出来的问句模板进行相似度匹配,并将相似度最大的问句模板所对应的查询模板作为原问句的查询模板,实现查询映射。

Description

一种高速列车问题查询模板生成方法
技术领域
本发明属于高速列车设计领域,具体涉及一种高速列车问题查询模板生成方法。
背景技术
在高速列车领域设计过程中,需要从高速列车概念设计、系统设计、方案设计等多个阶段识别用户意图。现有技术中多是采用分类模型或者句法匹配来实现用户问题判定,以识别用户意图。但是,其各自存在如下问题:1)由于高速列车领域问题种类的丰富性,分类模型的效果会下降,且分类模型无法解析深层语义。2)句法分析在面对高速列车领域同结构不同语义问题时错误率较高。如何进行高速列车领域的问题判定,将用户问句正确的转化为查询模板,为意图识别创造正确的前提,是亟需解决的问题。
发明内容
为解决现有技术中存在的问题,本发明的目的是提供一种高速列车问题查询模板生成方法,可有效提高意图识别的准确性。
为了实现上述发明目的,本发明提供了以下技术方案:
一种高速列车问题查询模板生成方法,包括问题浅度判定和问题深度判定;所述问题浅度判定包括如下步骤:
步骤S11:分词及停词;将用户问句输入jieba分词器进行分词处理;其中,将预先构建好的词典输入分词器中完成领域专有名词的识别;将分词后的分词序列输入到停词表中,如果某一词在停词表内,则将其视为非核心词去除,保留用户问句的主要成分形成用于特征提取的词序列;所述预先构建好的词典包括:从高速列车领域知识图谱中导出所有实体形成的实体词典;手工构建实体的相关同义词形成的同义词词典;从高速列车领域知识图谱中导出所有本体标签形成的本体标签词典;
步骤S12:特征提取及融合;将步骤S11中获得的词序列转化为词向量特征、句型特征以及用户特征三方面的特征词向量形式并将其融合为特征总向量;其中,词向量特征表示问句词语级的特征,由预训练词向量得来;句型特征表示问句句子结构的特征,由词序列的词性序列得来;用户特征表示用户级的特征,由用户信息、用户日志得来;
步骤S13:将用户问句转换为特征总向量的形式后,将特征总向量输入到分类模型里进行问题类别预测,最终输出用户问句的语义方向标签;其中,分类模型选用svm支持向量机;
所述问题深度判定包括如下步骤:
步骤S21:构建问句模板以及查询模板以形成与语义方向标签对应的模板库;其中,问句模板用于匹配用户问句深层语义,查询模板用于实现查询映射;
步骤S22:匹配模板库;将步骤S13中输出的语义方向标签用作模板库匹配的依据,当匹配到储存有相同语义方向标签的模板库后,输出模板库中所有的问句模板用于用户问句匹配;
步骤S23:句法分析及词性标注;对用户问句做句法分析得到句法分析结果,然后再对用户问句做词性标注得到词性序列,替换句法分析结果中非实体节点为对应词性标签,替换实体节点为对应本体,得到用户问句的词性句法分析树;
步骤S24:问句模板匹配;将步骤S23中得到的用户问句的词性句法分析树与步骤S22中提取的问句模板依次进行相似度匹配,将相似度最大的问句模板作为用户问句所匹配上的对象;
步骤S25:查询映射;将步骤S24中匹配到的相似度最大的问句模板对应的查询模板提取出来,将其作为用户问句的查询模板,实现查询的转换。
优选地,所述步骤S12具体包括如下步骤:
步骤S121:将预训练词向量导入分词、停词后形成的词序列中,并将词序列中每个词的预训练词向量加权平均后得出用户问句的词向量特征w_vector(A),其计算公式如下:
Figure BDA0003547076350000031
式中:A为分词、停词后的词序列;w_vector(A)为A的词向量特征;i为A的序列长度;n表示词向量的维度;Asn表示A中第s个词的词向量第n个位置的数值;
步骤S122:采用ltp词性标注工具对用户问句做词性标注后由词性替换用户问句中的词语得到问句的词性序列,将词性序列代入句型词典中进行匹配,根据匹配到的索引确定问句的句型向量,如果在句型词典中无匹配项,则在句型向量最后一位之后补位并置1,得到用户问句的句型特征s_vector(A),其计算公式如下:
Figure BDA0003547076350000032
式中:A为分词、停词后的词序列;s_vector(A)为A的句型特征;pos(A)代表A词性标注的结果;dict代表句型词典;n代表句型词典的长度;dict(n)代表词典中最后一个句型;
Figure BDA0003547076350000041
代表已成功匹配并舍弃该补位;
步骤S123:根据用户信息、用户日志获取用户特征u_vector(A);其中,用户信息来源于用户身份,以用户身份的个数作为特征向量维度;用户日志由问题类别数作为向量维度,以用户是否搜索过某类问题作为数值;
步骤S124:特征融合;采用直接拼接的方式将词向量特征、句型特征以及用户特征融合成特征总向量,其计算公式如下:
vector(A)=(w_vector(A),s_vector(A),u_vector(A))
式中:A代表分词、停词后的词序列;w_vector(A)为A的词向量特征;s_vector(A)为A的句型特征;u_vector(A)为A的用户特征;vector(A)为A的特征总向量。
优选地,所述步骤S21具体包括:
步骤S211:句法分析;利用哈工大ltp句法分析工具对训练问句进行句法分析操作,将训练问句输入到ltp句法分析工具当中,并输出该训练问句中各词语间的句法关系;
步骤S212:词性标注;利用哈工大ltp词性标注工具对训练问句进行词性标注操作,将训练问句输入到ltp词性标注工具当中,并输出训练问句每个词对应的词性标签组成的词性序列;
步骤S213:实体去除;将训练问句的句法分析结果中属于实体的词语替换成其在知识图谱中对应的本体,将非实体词替换成其词性标注结果中对应的词性标签,形成词性句法分析树,得到问句模板;
步骤S214:实体抽取;为训练问句补充上相对应的知识图谱中的答案,并且依据实体抽取识别出训练问句以及其对应答案中的实体;
步骤S215:构建查询图;将步骤S214中问句实体以及答案实体用作知识图谱检索的条件,检索出在知识图谱中包含两个实体的最小连通图,将该最小连通图作为该条训练语句的查询图;
步骤S216:实体去除;将步骤S215中查询图中的问句实体节点依据其实体类型变为可替换的变量节点,实体类型包括结构实体、故障实体、原因实体、维修方法实体以及本体标签;将答案实体节点替换成其在知识图谱中对应本体,得到训练问句对应的查询模板。
优选地,所述步骤S23具体包括:
步骤S231:用户问句的句法分析;利用哈工大ltp句法分析工具对用户问句进行句法分析操作,将用户问句输入到ltp句法分析工具当中,并输出该用户问句中各词语间的句法关系;
步骤S232:用户问句的词性标注;利用哈工大ltp词性标注工具对用户问句进行词性标注操作,将用户问句输入到ltp词性标注工具当中,并输出用户问句每个词对应的词性标签组成的词性序列;
步骤S233:实体去除;将用户问句的句法分析结果中属于实体的词语替换成其在知识图谱中对应的本体,将非实体词替换成其词性标注结果中对应的词性标签,形成用户问句的词性句法分析树。
优选地,所述步骤S24还包括:采用树编辑距离计算相似度,根据同层之间节点插入、删除、修改的总步数作为树编辑距离,树编辑距离越小则其相似度越大,其计算公式如下:
Figure BDA0003547076350000061
s=max(dep(X),dep(D))
式中:X代表用户问句词性句法分析树;D代表问句模板;lev_tree(X,D)代表X与D之间的树编辑距离;s代表X与D之间的最大树高;Xi,Di代表X和D的第i层;dn(Xi,Di)代表Xi转换成Di需要删除的节点个数;in(Xi,Di)代表Xi转换成Di需要插入的节点个数;mn(Xi,Di)代表Xi转换成Di需要修改的节点个数;dr(Xi,Di)代表Xi转换成Di需要删除的边个数;ir(Xi,Di)代表Xi转换成Di需要插入的边个数;mr(Xi,Di)代表Xi转换成Di需要修改的边个数;dep(X)、dep(D)代表树X和树D的高度。
本发明提供的一种高速列车问题查询模板生成方法相对于现有技术具备如下有益的技术效果:
1、利用svm分类模型作为问题浅度判定来解析用户问句的浅层语义,得到问句的语义方向,在为用户问句句法匹配作出正确前提的同时,解决了传统方法中完全利用句法匹配进行问句语义解析正确率过低的问题。
2、利用句法匹配作为问题深度判定来解析用户问句的深层语义,并根据结果生成用户问句对应的查询模板。在解决传统方法中完全利用分类模型正确率较低的同时,得到问句的深层语义,提高了意图识别准确率。
附图说明:
图1为本发明的一种基于深、浅判定结合的问题种类判定逻辑;
图2为本发明的一种svm分类模型调用图;
图3为本发明的一种词性句法分析树的生成逻辑。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图,对本发明实施例中的技术方案进行清楚、完整的描述。显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。
因此,以下对本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的部分实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征和技术方案可以相互组合。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
在本发明的描述中,需要说明的是,术语“上”、“下”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该发明产品使用时惯常摆放的方位或位置关系,或者是本领域技术人员惯常理解的方位或位置关系,这类术语仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
如图1所示,本发明提供了一种高速列车问题查询模板生成方法,包括如下步骤:
步骤S1:问题浅度判定;首先对用户输入的用户问句进行分词以及停词,将用户问句转换为相关词的词序列,对词序列分别进行句型特征、用户特征以及词向量特征的提取以及融合,并将三个特征融合而成的向量作为用户问句的特征总向量输入到分类模型进行问题方向的预测,输出语义方向标签。具体包括如下步骤:
步骤S11:分词及停词;将用户问句输入jieba分词器进行分词处理;其中,将预先构建好的词典输入分词器中完成领域专有名词的识别;将分词后的分词序列进行停词操作,去除用户问句中的多余成分,保留用户问句的主要成分形成用于特征提取的词序列。停词操作选用现有的哈工大停词表进行,将分词后的词序列输入到停词表中,如果某一词在停词表内,则将其视为非核心词去除。其中,预先构建好的词典包括从高速列车领域知识图谱中导出所有实体形成的实体词典;手工构建实体的相关同义词形成的同义词词典;从高速列车领域知识图谱中导出所有本体标签形成的本体标签词典。
以高速列车转向架运维用户问句“轮子发生过哪些故障”为例,首先将用户的问句输入分词器进行分词处理,分词器输出如下所示的分词序列:
[“轮子”,“有”,“哪些”,“故障”]
然后将分词序列进行停词操作,停词表选用哈工大停词表,对分词序列进行停词操作后输出如下所示的词序列:
[“轮子”,“故障”]
步骤S12:特征提取及融合;将步骤S11中获得的词序列转化为词向量特征、句型特征以及用户特征三方面的特征词向量形式并将其融合为总特征向量。其中,词向量特征表示问句词语级的特征,由预训练词向量得来;句型特征表示问句句子结构的特征,由词序列的词性序列得来;用户特征表示用户级的特征,由用户信息、用户日志得来。
具体包括如下步骤:
步骤S121:将预训练词向量导入分词、停词后形成的词序列中,并将词序列中每个词的预训练词向量加权平均后得出用户问句的词向量特征,其计算如公式1:
Figure BDA0003547076350000091
式中:A为分词、停词后的词序列;w_vector(A)为A的词向量特征;i为A的序列长度;n表示词向量的维度;Asn表示A中第s个词的词向量第n个位置的数值。
其中预训练词向量由命名体识别模型在模型训练的过程中根据训练数据的上下文语义关系得到并存储训练数据中所有字符的字向量进行加权平均得到。以单词“轮对”为例,假设在命名体识别模型训练过后,“轮”的字向量为[0,0,1],“对”的字向量为[1,0,0],则单词“轮对”的预训练词向量为字向量加权平均,即[0.5,0,0.5]。
以前面步骤S11生成的词序列为例,假设“轮子”的预训练词向量为(1,1,0)“故障”的预训练词向量为(0,2,2),则具体计算步骤如下所示:
Figure BDA0003547076350000101
步骤S122:采用ltp词性标注工具对用户问句做词性标注后由词性替换用户问句中的词语得到问句的词性序列,将词性序列代入句型词典中进行匹配,根据匹配到的索引确定问句的句型向量,如果在句型词典中无匹配项,则在句型向量最后一位之后补位并置1,得到用户问句的句型特征,其计算如公式2:
Figure BDA0003547076350000102
式中:A为分词、停词后的词序列;s_vector(A)为A的句型特征;pos(A)代表A词性标注的结果;dict代表句型词典;n代表句型词典的长度;dict(n)代表词典中最后一个句型;
Figure BDA0003547076350000103
代表已成功匹配并舍弃该补位。
在该步骤中,采用ltp词性标注工具对训练数据集中的训练问句进行词性标注,将获得的词性序列进行储存形成句型词典,以少量训练问句为例,演示句型词典的样式,如表1所示:
Figure BDA0003547076350000104
表1句型词典示意表
以高速列车转向架运维用户问句“轮子发生过哪些故障”为例,建立句型词典后,选用ltp词性标注工具对用户问句进行词性标注,标注结果如下所示:
[“N”,“V”,“U”,“R”,“N”]
随后将词性序列与句型词典中存储的词性序列进行匹配,如表1中所示,匹配到第2个词性序列,则根据词典长度建立空向量(假设词典长度为3),根据匹配到的句型的索引将向量对应位置置1。其具体示例如下所示:
句型特征=(0,1,0)
步骤S123:根据用户信息、用户日志获取用户特征u_vector(A);其中,用户信息来源于用户身份,以用户身份的个数作为特征向量维度;假设身份有运维、设计、制造三种,用户为运维身份,则特征向量为(1,0,0);用户日志由问题类别数作为向量维度,用户是否搜索过某类问题作为数值;假设由a、b、c三种类型问题,用户搜索过a问题,则特征向量为(1,0,0)。
该步骤中,以高速列车转向架运维用户问句“轮子发生过哪些故障”为例,则用户的身份为运维人员,则根据身份个数建立空数组,在相应位置置1,具体示例如下所示:
用户身份特征=(1,0,0)
用户的搜索记录则在身份特征向量后加一位,如果用户搜索过相关问题则为1,否则为0,以高速列车转向架运维用户问句“轮子发生过哪些故障”为例,假设用户没有搜索过,则用户特征如下所示:
用户特征=(1,0,0,0)
步骤S124:特征融合;采用直接拼接的方式将词向量特征、句型特征以及用户特征融合成总特征向量,其计算如公式3:
vector(A)=(w_vector(A),s_vector(A),u_vector(A)) 3
式中:A代表分词、停词后的词序列;w_vector(A)为A的词向量特征;s_vector(A)为A的句型特征;u_vector(A)为A的用户特征;vector(A)为A的特征总向量。
以高速列车转向架运维用户问句“轮子发生过哪些故障”为例,具体示意如下所示:
特征总向量=(0.5,1.5,1,0,1,0,1,0,0,0)
步骤S13:在经过步骤S124将用户问句转换为特征总向量的形式后,将特征总向量输入到分类模型里进行问题类别的预测,最终输出用户问句的语义方向标签。其中,分类模型选用svm支持向量机。分类模型的训练过程与用户问句的预测过程相同,训练集由训练问句及其对应的语义方向标签组成,以高速列车领域运维阶段问句为例,训练数据的构成如下表2所示(部分):
Figure BDA0003547076350000121
表2分类模型训练数据示意表
随后对训练集中的每一条数据进行分词停词、特征提取及融合操作,将每一条数据都转换成特征总向量的形式后输入到分类模型进行模型的训练,并根据每条数据输出的语义方向标签结果来评判模型训练的精度。评判标准采用准确率以及F1值。根据本发明训练结果显示,面对高速列车领域训练问句,svm分类模型的准确率达到89%,F1值达到87%,符合使用的要求。
在该步骤中,以高速列车转向架运维用户问句“轮子发生过哪些故障”为例,将特征总向量输入到分类模型中进行问题浅度判定,最终判断用户问句的语义方向标签为“查故障类”。
步骤S2:问题深度判定;将步骤S1中所得到的语义方向标签与模板库进行匹配,当匹配到相应的模板库后提取出模板库内的问句模板;然后将用户问句作句法分析和词性标注,得到用户问句的词性句法分析树,将其与提取出来的问句模板进行相似度匹配,并将相似度最大的问句模板所对应的查询模板作为用户问句的查询模板,实现查询映射。其主要过程包括:模板库构建及匹配、句法分析及词性标注、问句模板匹配以及查询映射。具体包括如下步骤:
步骤S21:构建问句模板以及查询模板以形成与语义方向标签对应的模板库;其中,问句模板用于匹配用户问句深层语义;查询模板用于实现查询映射。模板库是用来储存所有类型问题的查询模板以及问句模板的工具。模板库的数量由svm分类模型的类别数量决定,每一个语义方向标签都有自己的模板库,相同语义方向标签模板库中每一条问句模板对应了一条查询模板,在得到所有训练问句各自对应的查询模板和问句模板后,将相同语义方向标签的训练问句对应的查询模板和问句模板储存在一起,形成各语义方向标签的模板库。
问句模板具体构建方式如下:
步骤S211:句法分析;利用哈工大ltp句法分析工具对训练问句进行句法分析操作,将训练问句输入到ltp句法分析工具当中,并输出该训练问句中各词语间的句法关系;以问句“转向架有哪些故障”为例,则其句法分析的结果为[“0”“有”“root”],[“有”“故障”“VOB”],[“有”“转向架”“SBV”],[“故障”“哪些”“ATT”];其中,VOB、SBV、ATT等代表两词间的句法关系,root以及0代表该词为句子中的谓词成分。
步骤S212:词性标注;利用哈工大ltp词性标注工具对训练问句进行词性标注操作,将训练问句输入到ltp词性标注工具当中,并输出训练问句每个词对应的词性标签组成的词性序列;以问句“转向架有哪些故障”为例,其词性标注结果为[“N”“V”“R”“N”];
步骤S213:实体去除;将训练问句的句法分析结果中属于实体的词语替换成其在知识图谱中对应的本体,将非实体词替换成其词性标注结果中对应的词性标签,形成词性句法分析树,得到问句模板;以训练问句“转向架有哪些故障”为例,则其问句模板为:[“0”“V”“root”],[“V”“N”“VOB”],[“V”“系统”“SBV”],[“N”“R”“ATT”];
查询模板具体构建方式如下:
步骤S214:实体抽取;为训练问句补充上相对应的知识图谱中的答案,并且依据实体抽取识别出训练问句以及其对应答案中的实体;实体抽取采取命名体识别与实体词典相结合的方式进行,将训练问句输入到命名体识别模型内得到预期实体,然后将预期实体输入到实体词典内进行匹配操作,最后将与预期实体相似度最高的词语作为训练问句的最终实体输出。以问答对“转向架有哪些故障漏油”为例,则其问句实体有“转向架”,其答案实体为“漏油”;
步骤S215:构建查询图;将步骤S214中问句实体以及答案实体用作知识图谱检索的条件,检索出在知识图谱中包含两个实体的最小连通图,将该最小连通图作为该条训练语句的查询图;以问答对“转向架有哪些故障漏油”为例,则其查询图为[:转向架]-[:发生]->[:漏油];其中,“发生”为两实体在知识图谱中的对应关系;
步骤S216:实体去除;将步骤S215中查询图中的问句实体节点依据其实体类型变为可替换的变量节点,实体类型包括结构实体、故障实体、原因实体、维修方法实体以及本体标签;将答案实体节点替换成其在知识图谱中对应本体,得到训练问句对应的查询模板;以步骤S215中查询图“[:转向架]-[:发生]->[:漏油]”为例,则其查询模板为[:##结构实体$$]-[:发生]->[:故障模式],其中,##$$代表其为可替换的变量节点。
步骤S22:匹配模板库;将步骤S13中输出的问句语义方向标签用作模板库匹配的依据,当匹配到储存有相同语义方向标签的模板库后,输出模板库中的所有的问句模板用于用户问句匹配。
以高速列车转向架运维用户问句“轮子发生过哪些故障”为例,根据浅度问题判定得出的语义方向标签匹配相应类别的模板库,模板中存有该语义方向标签下不同语义问句的问句模板和查询模板,根据语义方向标签“查故障类”匹配出的模板库如表3所示(仅展示少量):
Figure BDA0003547076350000151
表3模板库示意表
步骤S23:句法分析及词性标注;对用户问句做句法分析得到句法分析结果,然后再对用户问句做词性标注得到词性序列,替换句法分析结果中非实体节点为对应词性标签,替换实体节点为对应本体,得到用户问句的词性句法分析树。其具体构建过程如图3所示,包括以下过程:
步骤S231:用户问句的句法分析;利用哈工大ltp句法分析工具对用户问句进行句法分析操作,将用户问句输入到ltp句法分析工具当中,并输出该用户问句中各词语间的句法关系;
步骤S232:用户问句的词性标注;利用哈工大ltp词性标注工具对用户问句进行词性标注操作,将用户问句输入到ltp词性标注工具当中,并输出用户问句每个词对应的词性标签组成的词性序列;
步骤S233:实体去除;将用户问句的句法分析结果中属于实体的词语替换成其在知识图谱中对应的本体,将非实体词替换成其词性标注结果中对应的词性标签,形成用户问句的词性句法分析树。
在上述步骤中,以高速列车转向架运维用户问句“轮子发生过哪些故障”为例,形成用户问句的句法分析结果为:
[[(1,2,'SBV'),(2,0,'HED'),(3,2,'RAD'),(4,5,'ATT'),(5,2,'VOB')]]
将句法分析结果中属于实体的节点替换为知识图谱中对应本体,其他节点替换为对应词性标签,则得到词性句法分析树如下所示:
[[(“零件”,v,'SBV'),(v,0,'HED'),(u,v,'RAD'),(r,n,'ATT'),(n,v,'VOB')]]
步骤S24:问句模板匹配;将步骤S233中得到的用户问句的词性句法分析树与步骤S22中提取的问句模板依次进行相似度的匹配,将相似度最大的问句模板作为用户问句所匹配上的对象,问句模板相似度的计算采用树编辑距离进行计算,树编辑距离代表了将用户问句的词性句法分析树依次转换为问句模板所需要的步骤次数,根据同层之间节点插入、删除、修改的总步数作为树编辑距离,树编辑距离越小则其相似度越大,其计算如公式4:
Figure BDA0003547076350000171
s=max(dep(X),dep(D))
式中:X代表用户问句词性句法分析树;D代表问句模板;lev_tree(X,D)代表X与D之间的树编辑距离;s代表X与D之间的最大树高;Xi,Di代表X和D的第i层;dn(Xi,Di)代表Xi转换成Di需要删除的节点个数;in(Xi,Di)代表Xi转换成Di需要插入的节点个数;mn(Xi,Di)代表Xi转换成Di需要修改的节点个数;dr(Xi,Di)代表Xi转换成Di需要删除的边个数;ir(Xi,Di)代表Xi转换成Di需要插入的边个数;mr(Xi,Di)代表Xi转换成Di需要修改的边个数;dep(X)、dep(D)代表树X和树D的高度。
该步骤中,以高速列车转向架运维用户问句“轮子发生过哪些故障”,以表12中第一个问句模板为例,计算过程如下所示:
用户问句词性句法分析树第一层:(v,0,'HED');
问句模板第一层:(v,0,'HED');
树编辑距离:0;
用户问句词性句法分析树第二层:(“零件”,v,'SBV'),(u,v,'RAD'),(n,v,'VOB');
问句模板第二层:(“零件”,v,'SBV'),(u,v,'RAD'),(n,v,'VOB');
树编辑距离:0;
用户问句词性句法分析树第三层:(r,n,'ATT');
问句模板第三层:(r,n,'ATT');
树编辑距离:0;
由此得出用户问句词性句法分析树与第一个问句模板句法树编辑距离为0,即两者完全相同,将第一个问句模板作为匹配对象。
步骤S25:查询映射;将步骤S24中用户问句匹配到的相似度最大的问句模板对应的查询模板提取出来,将其作为用户问句的查询模板,实现查询的转换;其计算如公式5:
Figure BDA0003547076350000181
式中:S代表用户问句;D代表模板库中问句模板;board(S)代表S的查询模板;boa_D代表D对应的查询模板;tree(S)代表S生成的词性句法分析树;lev_tree(tree(S),D)代表tree(S)与D的树编辑距离;Min(lev_tree)代表所有的树编辑距离的最小值;!boa_D代表当前问句模板不匹配。
根据步骤S24中匹配的第一个问句模板,输出该模板对应的查询模板作为用户问句的查询模板,即:
match(n1{name:'##structure$$'})<-[:所属结构{}]-(d2:`零件编码`)-[:发生{}]->(d3:`故障事件`)-[:现象{}]->(d4:`故障现象`)-[:溯果{}]->(m:`故障模式`)return distinct m.name as start。
根据步骤S25中所生成的查询模板,可以用于检索知识图谱的标准查询语句,标准查询语句即代表了用户的最终意图,后续将标准查询语句代入知识图谱进行检索便可以得到与用户问题相关的结果,可以实现高速列车领域用户意图的最终识别。
以上实施例仅用以说明本发明而并非限制本发明所描述的技术方案,尽管本说明书参照上述的各个实施例对本发明已进行了详细的说明,但本发明不局限于上述具体实施方式,因此任何对本发明进行修改或等同替换;而一切不脱离发明的精神和范围的技术方案及其改进,其均涵盖在本发明的权利要求范围当中。

Claims (5)

1.一种高速列车问题查询模板生成方法,其特征在于,包括问题浅度判定和问题深度判定;
所述问题浅度判定包括如下步骤:
步骤S11:分词及停词;将用户问句输入jieba分词器进行分词处理;其中,将预先构建好的词典输入分词器中完成领域专有名词的识别;将分词后的分词序列输入到停词表中,如果某一词在停词表内,则将其视为非核心词去除,保留用户问句的主要成分形成用于特征提取的词序列;所述预先构建好的词典包括:从高速列车领域知识图谱中导出所有实体形成的实体词典;手工构建实体的相关同义词形成的同义词词典;从高速列车领域知识图谱中导出所有本体标签形成的本体标签词典;
步骤S12:特征提取及融合;将步骤S11中获得的词序列转化为词向量特征、句型特征以及用户特征三方面的特征词向量形式并将其融合为特征总向量;其中,词向量特征表示问句词语级的特征,由预训练词向量得来;句型特征表示问句句子结构的特征,由词序列的词性序列得来;用户特征表示用户级的特征,由用户信息、用户日志得来;
步骤S13:将用户问句转换为特征总向量的形式后,将特征总向量输入到分类模型里进行问题类别预测,最终输出用户问句的语义方向标签;其中,分类模型选用svm支持向量机;
所述问题深度判定包括如下步骤:
步骤S21:构建问句模板以及查询模板以形成与语义方向标签对应的模板库;其中,问句模板用于匹配用户问句深层语义,查询模板用于实现查询映射;
步骤S22:匹配模板库;将步骤S13中输出的语义方向标签用作模板库匹配的依据,当匹配到储存有相同语义方向标签的模板库后,输出模板库中所有的问句模板用于用户问句匹配;
步骤S23:句法分析及词性标注;对用户问句做句法分析得到句法分析结果,然后再对用户问句做词性标注得到词性序列,替换句法分析结果中非实体节点为对应词性标签,替换实体节点为对应本体,得到用户问句的词性句法分析树;
步骤S24:问句模板匹配;将步骤S23中得到的用户问句的词性句法分析树与步骤S22中提取的问句模板依次进行相似度匹配,将相似度最大的问句模板作为用户问句所匹配上的对象;
步骤S25:查询映射;将步骤S24中匹配到的相似度最大的问句模板对应的查询模板提取出来,将其作为用户问句的查询模板,实现查询的转换。
2.如权利要求1所述的一种高速列车问题查询模板生成方法,其特征在于,所述步骤S12具体包括如下步骤:
步骤S121:将预训练词向量导入分词、停词后形成的词序列中,并将词序列中每个词的预训练词向量加权平均后得出用户问句的词向量特征w_vector(A),其计算公式如下:
Figure FDA0003547076340000021
式中:A为分词、停词后的词序列;w_vector(A)为A的词向量特征;i为A的序列长度;n表示词向量的维度;Asn表示A中第s个词的词向量第n个位置的数值;
步骤S122:采用ltp词性标注工具对用户问句做词性标注后由词性替换用户问句中的词语得到问句的词性序列,将词性序列代入句型词典中进行匹配,根据匹配到的索引确定问句的句型向量,如果在句型词典中无匹配项,则在句型向量最后一位之后补位并置1,得到用户问句的句型特征s_vector(A),其计算公式如下:
Figure FDA0003547076340000031
式中:A为分词、停词后的词序列;s_vector(A)为A的句型特征;pos(A)代表A词性标注的结果;dict代表句型词典;n代表句型词典的长度;dict(n)代表词典中最后一个句型;
Figure FDA0003547076340000032
代表已成功匹配并舍弃该补位;
步骤S123:根据用户信息、用户日志获取用户特征u_vector(A);其中,用户信息来源于用户身份,以用户身份的个数作为特征向量维度;用户日志由问题类别数作为向量维度,以用户是否搜索过某类问题作为数值;
步骤S124:特征融合;采用直接拼接的方式将词向量特征、句型特征以及用户特征融合成特征总向量,其计算公式如下:
vector(A)=(w_vector(A),s_vector(A),u_vector(A))
式中:A代表分词、停词后的词序列;w_vector(A)为A的词向量特征;s_vector(A)为A的句型特征;u_vector(A)为A的用户特征;vector(A)为A的特征总向量。
3.如权利要求2所述的一种高速列车问题查询模板生成方法,其特征在于,所述步骤S21包括:
步骤S211:句法分析;利用哈工大ltp句法分析工具对训练问句进行句法分析操作,将训练问句输入到ltp句法分析工具当中,并输出该训练问句中各词语间的句法关系;
步骤S212:词性标注;利用哈工大ltp词性标注工具对训练问句进行词性标注操作,将训练问句输入到ltp词性标注工具当中,并输出训练问句每个词对应的词性标签组成的词性序列;
步骤S213:实体去除;将训练问句的句法分析结果中属于实体的词语替换成其在知识图谱中对应的本体,将非实体词替换成其词性标注结果中对应的词性标签,形成词性句法分析树,得到问句模板;
步骤S214:实体抽取;为训练问句补充上相对应的知识图谱中的答案,并且依据实体抽取识别出训练问句以及其对应答案中的实体;
步骤S215:构建查询图;将步骤S214中问句实体以及答案实体用作知识图谱检索的条件,检索出在知识图谱中包含两个实体的最小连通图,将该最小连通图作为该条训练语句的查询图;
步骤S216:实体去除;将步骤S215中查询图中的问句实体节点依据其实体类型变为可替换的变量节点,实体类型包括结构实体、故障实体、原因实体、维修方法实体以及本体标签;将答案实体节点替换成其在知识图谱中对应本体,得到训练问句对应的查询模板。
4.如权利要求3所述的一种高速列车问题查询模板生成方法,其特征在于,所述步骤S23具体包括:
步骤S231:用户问句的句法分析;利用哈工大ltp句法分析工具对用户问句进行句法分析操作,将用户问句输入到ltp句法分析工具当中,并输出该用户问句中各词语间的句法关系;
步骤S232:用户问句的词性标注;利用哈工大ltp词性标注工具对用户问句进行词性标注操作,将用户问句输入到ltp词性标注工具当中,并输出用户问句每个词对应的词性标签组成的词性序列;
步骤S233:实体去除;将用户问句的句法分析结果中属于实体的词语替换成其在知识图谱中对应的本体,将非实体词替换成其词性标注结果中对应的词性标签,形成用户问句的词性句法分析树。
5.如权利要求4所述的一种高速列车问题查询模板生成方法,其特征在于,所述步骤S24还包括:采用树编辑距离计算相似度,根据同层之间节点插入、删除、修改的总步数作为树编辑距离,树编辑距离越小则其相似度越大,其计算公式如下:
Figure FDA0003547076340000051
s=max(dep(X),dep(D))
式中:X代表用户问句词性句法分析树;D代表问句模板;lev_tree(X,D)代表X与D之间的树编辑距离;s代表X与D之间的最大树高;Xi,Di代表X和D的第i层;dn(Xi,Di)代表Xi转换成Di需要删除的节点个数;in(Xi,Di)代表Xi转换成Di需要插入的节点个数;mn(Xi,Di)代表Xi转换成Di需要修改的节点个数;dr(Xi,Di)代表Xi转换成Di需要删除的边个数;ir(Xi,Di)代表Xi转换成Di需要插入的边个数;mr(Xi,Di)代表Xi转换成Di需要修改的边个数;dep(X)、dep(D)代表树X和树D的高度。
CN202210252076.8A 2022-03-15 2022-03-15 一种高速列车问题查询模板生成方法 Active CN114579710B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210252076.8A CN114579710B (zh) 2022-03-15 2022-03-15 一种高速列车问题查询模板生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210252076.8A CN114579710B (zh) 2022-03-15 2022-03-15 一种高速列车问题查询模板生成方法

Publications (2)

Publication Number Publication Date
CN114579710A true CN114579710A (zh) 2022-06-03
CN114579710B CN114579710B (zh) 2023-04-25

Family

ID=81774551

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210252076.8A Active CN114579710B (zh) 2022-03-15 2022-03-15 一种高速列车问题查询模板生成方法

Country Status (1)

Country Link
CN (1) CN114579710B (zh)

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160275058A1 (en) * 2015-03-19 2016-09-22 Abbyy Infopoisk Llc Method and system of text synthesis based on extracted information in the form of an rdf graph making use of templates
RU2646386C1 (ru) * 2016-12-07 2018-03-02 Общество с ограниченной ответственностью "Аби Продакшн" Извлечение информации с использованием альтернативных вариантов семантико-синтаксического разбора
CN108804521A (zh) * 2018-04-27 2018-11-13 南京柯基数据科技有限公司 一种基于知识图谱的问答方法及农业百科问答系统
CA3089830A1 (en) * 2018-01-29 2019-08-01 EmergeX, LLC System and method for facilitating affective-state-based artificial intelligence
CN110135551A (zh) * 2019-05-15 2019-08-16 西南交通大学 一种基于词向量和循环神经网络的机器人聊天方法
CN111216477A (zh) * 2018-11-23 2020-06-02 香港纺织及成衣研发中心有限公司 一种用于制作布图案模板的方法
CN111339269A (zh) * 2020-02-20 2020-06-26 来康科技有限责任公司 模板自动生成的知识图谱问答训练及应用服务系统
CN111738006A (zh) * 2020-06-22 2020-10-02 苏州大学 基于商品评论命名实体识别的问题生成方法
CN111859092A (zh) * 2020-07-29 2020-10-30 苏州思必驰信息科技有限公司 文本语料扩增方法、装置、电子设备及存储介质
CN111899165A (zh) * 2020-06-16 2020-11-06 厦门大学 一种基于功能模块的多任务图像重建卷积网络模型
CN112597272A (zh) * 2020-11-17 2021-04-02 北京计算机技术及应用研究所 一种基于自然语言问句的专家领域知识图谱查询方法
CN113361617A (zh) * 2021-06-15 2021-09-07 西南交通大学 基于多元注意力修正的方面级情感分析建模方法
US20210357585A1 (en) * 2017-03-13 2021-11-18 Arizona Board Of Regents On Behalf Of The University Of Arizona Methods for extracting and assessing information from literature documents
US20220075954A1 (en) * 2020-09-04 2022-03-10 Oracle International Corporation Formulating Questions Using Differences Between Sets of Syntactic Trees and Differences Between Sets of Semantic Trees

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160275058A1 (en) * 2015-03-19 2016-09-22 Abbyy Infopoisk Llc Method and system of text synthesis based on extracted information in the form of an rdf graph making use of templates
RU2646386C1 (ru) * 2016-12-07 2018-03-02 Общество с ограниченной ответственностью "Аби Продакшн" Извлечение информации с использованием альтернативных вариантов семантико-синтаксического разбора
US20210357585A1 (en) * 2017-03-13 2021-11-18 Arizona Board Of Regents On Behalf Of The University Of Arizona Methods for extracting and assessing information from literature documents
CA3089830A1 (en) * 2018-01-29 2019-08-01 EmergeX, LLC System and method for facilitating affective-state-based artificial intelligence
CN108804521A (zh) * 2018-04-27 2018-11-13 南京柯基数据科技有限公司 一种基于知识图谱的问答方法及农业百科问答系统
CN111216477A (zh) * 2018-11-23 2020-06-02 香港纺织及成衣研发中心有限公司 一种用于制作布图案模板的方法
CN110135551A (zh) * 2019-05-15 2019-08-16 西南交通大学 一种基于词向量和循环神经网络的机器人聊天方法
CN111339269A (zh) * 2020-02-20 2020-06-26 来康科技有限责任公司 模板自动生成的知识图谱问答训练及应用服务系统
CN111899165A (zh) * 2020-06-16 2020-11-06 厦门大学 一种基于功能模块的多任务图像重建卷积网络模型
CN111738006A (zh) * 2020-06-22 2020-10-02 苏州大学 基于商品评论命名实体识别的问题生成方法
CN111859092A (zh) * 2020-07-29 2020-10-30 苏州思必驰信息科技有限公司 文本语料扩增方法、装置、电子设备及存储介质
US20220075954A1 (en) * 2020-09-04 2022-03-10 Oracle International Corporation Formulating Questions Using Differences Between Sets of Syntactic Trees and Differences Between Sets of Semantic Trees
CN112597272A (zh) * 2020-11-17 2021-04-02 北京计算机技术及应用研究所 一种基于自然语言问句的专家领域知识图谱查询方法
CN113361617A (zh) * 2021-06-15 2021-09-07 西南交通大学 基于多元注意力修正的方面级情感分析建模方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
DUY-KIEN NGUYEN等: "Improved Fusion of Visual and Language Representations by Dense Symmetric Co-Attention for Visual Question Answering" *
谭红叶;孙秀琴;闫真;: "基于答案及其上下文信息的问题生成模型" *
邓淑卿;李玩伟;徐健;: "基于句法依赖规则和词性特征的情感词识别研究" *
鲍静益;于佳卉;徐宁;姚潇;刘小峰;: "问答系统命名实体识别改进方法研究" *

Also Published As

Publication number Publication date
CN114579710B (zh) 2023-04-25

Similar Documents

Publication Publication Date Title
CN108804521B (zh) 一种基于知识图谱的问答方法及农业百科问答系统
CN110727779A (zh) 基于多模型融合的问答方法及系统
US8938410B2 (en) Open information extraction from the web
CN111027324A (zh) 一种基于句法模式和机器学习的开放式关系的抽取方法
CN114579709B (zh) 一种基于知识图谱的智能问答意图识别方法
CN113360582B (zh) 基于bert模型融合多元实体信息的关系分类方法及系统
CN113157860B (zh) 一种基于小规模数据的电力设备检修知识图谱构建方法
Wiesman et al. Domain independent learning of ontology mappings
Ruiz-Casado et al. Using context-window overlapping in synonym discovery and ontology extension
CN116244448A (zh) 基于多源数据信息的知识图谱构建方法、设备及系统
Krithika et al. Learning to grade short answers using machine learning techniques
Li et al. Neural factoid geospatial question answering
Sun A natural language interface for querying graph databases
CN113610626A (zh) 银行信贷风险识别知识图谱构建方法、装置、计算机设备及计算机可读存储介质
CN113868382A (zh) 从中文自然语言中抽取结构化知识的方法和装置
CN113157887A (zh) 知识问答意图识别方法、装置、及计算机设备
CN111651528A (zh) 基于生成式对抗网络的开放式实体关系抽取方法
CN114091464B (zh) 一种融合五维特征的高普适性多对多关系三元组抽取方法
Hendriks et al. Recognizing and Linking Entities in Old Dutch Text: A Case Study on VOC Notary Records.
Nguyen et al. A vietnamese question answering system
CN114579710A (zh) 一种高速列车问题查询模板生成方法
Reshadat et al. Confidence measure estimation for open information extraction
Deshmukh et al. Automatic text-to-SQL machine translation for scholarly publication database search
Eliassi-Rad et al. A theory-refinement approach to information extraction
CN111737107A (zh) 一种基于异质信息网络的重复缺陷报告检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant