CN112380352B - 一种交互式检索方法、装置、计算机设备及存储介质 - Google Patents

一种交互式检索方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN112380352B
CN112380352B CN202011169946.2A CN202011169946A CN112380352B CN 112380352 B CN112380352 B CN 112380352B CN 202011169946 A CN202011169946 A CN 202011169946A CN 112380352 B CN112380352 B CN 112380352B
Authority
CN
China
Prior art keywords
word
corpus
knowledge graph
query
word vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011169946.2A
Other languages
English (en)
Other versions
CN112380352A (zh
Inventor
李博
徐舒寒
张炯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Commercial Aircraft Corp of China Ltd
Beijing Aeronautic Science and Technology Research Institute of COMAC
Original Assignee
Commercial Aircraft Corp of China Ltd
Beijing Aeronautic Science and Technology Research Institute of COMAC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Commercial Aircraft Corp of China Ltd, Beijing Aeronautic Science and Technology Research Institute of COMAC filed Critical Commercial Aircraft Corp of China Ltd
Priority to CN202011169946.2A priority Critical patent/CN112380352B/zh
Priority to PCT/CN2020/135364 priority patent/WO2022088409A1/zh
Priority to EP20959568.5A priority patent/EP4047505A4/en
Publication of CN112380352A publication Critical patent/CN112380352A/zh
Application granted granted Critical
Publication of CN112380352B publication Critical patent/CN112380352B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • G06N5/025Extracting rules from data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Library & Information Science (AREA)
  • Animal Behavior & Ethology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本专利公开了一种交互式检索方法、装置、计算机设备及存储介质,属于计算机软件和航电系统的交叉领域,用于提高电子飞行包的检索效率,保障飞行运行安全,使民航飞机飞行操作更加现代化,有效确保飞行安全、减轻飞行员工作负担、提高航空公司经济效益,同时提高民航飞机的核心竞争力。本发明的主要技术方案为:步骤S1,结合知识图谱,对用户输入的查询语句进行扩展;步骤S2,从文档库中,选择与扩展后查询语句相似度较高的若干文档,返回至用户;步骤S3,根据用户行为调整所述知识图谱中各节点权重,优化检索结果。

Description

一种交互式检索方法、装置、计算机设备及存储介质
技术领域
本发明涉及计算机软件和航电系统的交叉领域,尤其涉及一种交互式检索方法、装置、计算机设备及存储介质。
背景技术
电子飞行包是一种电子信息管理设备,用于显示飞机驾驶舱电子显示系统中的航行数据,进行飞行各阶段的性能计算和完成飞行操作检查,可以帮助飞行员使用更少的纸张,更容易、有效地执行飞行管理任务。电子飞行包是民用飞机实现无纸化驾驶舱的重要步骤,作为航空公司运行信息使用和管理的重大革新之一。
电子飞行包包括机上计算机及存储于其中的电子资料库。在实际应用中,电子飞行包所使用的常见机上计算机包括手持便携式商用成品计算机、固定于飞机上的便携式计算机、安装于飞机上且满足适航要求的计算机等。电子飞行包上可以应用智能查询技术,使得飞行员能够在最短的查询时间内搜索到最多的有用信息来辅助飞行操作,提高飞行员的工作效率,进而保障飞行安全。
现有电子飞行包的检索方法不能体现飞行员查询习惯和查询意图,导致飞行员难以快速并且准确地找到所需要的信息,不能有效减轻飞行员的工作负担,电子飞行包检索效率较低。并且,在应用机器学习的现有检索方法中,各个数据参数之间的关系缺乏可解释性,参数的调整缺乏统一的量化指标,为电子飞行包的应用带来了不确定性。
发明内容
本发明提供一种交互式检索方法、装置、计算机设备及存储介质,用于解决电子飞行包检索效率低的问题。
本发明实施例提供一种交互式检索方法,所述方法包括:
步骤S1,结合知识图谱,对用户输入的查询语句进行扩展;
步骤S2,从文档库中,选择与扩展后查询语句相似度较高的若干文档,返回至用户;
步骤S3,根据用户行为调整所述知识图谱中各节点权重,优化检索结果。
可选的,首次检索前,需要构建知识图谱或获取现有知识图谱,其中构建知识图谱,即步骤S0,具体包括:步骤S001,将源文件转化为标准文档格式,并构建语料库;步骤S002,对词语进行深度神经网络训练,得到稠密词向量;步骤S003,根据所述稠密词向量之间的相似度构建知识图谱;
可选的,所述标准文档格式包含以下属性:识别符属性,用于表示文档在源文件中的具体位置;标题属性,用于记录所述文档标题;适用范围属性,用于记录所述文档适用范围的具体规定;值属性,用于记录所述文档的具体内容。
可选的,在所述步骤S1中,所述知识图谱以所述词向量对应的词语为节点,以所述词向量之间的语义相似度为权重边。
可选的,所述步骤S1包括:S101,在所述知识图谱中,查找所述查询语句所对应的若干节点;S102,查找所述查询语句所对应节点的最近节点;S103,将所述最近节点所对应的专业词语添加到查询语句中,组成新的查询语句。
可选的,步骤S2中的所述语义相似度,由词语集合的平均稠密词向量计算得到。
本发明实施例提供一种交互式检索装置,所述装置包括:
输入模块,用于用户输入查询文本、点击摘要文本等实现用户提出查询意图的人机交互功能;
深度学习模块,用于对词语进行训练,得到词语的稠密词向量;
匹配模块,用于根据所述查询文本,匹配相似的语料库文本单元;
输出模块,用于向用户输出检索结果和推荐结果;
反馈模块,用于依据用户行为增强知识图谱中信息的关联性。
可选的,所述匹配模块,包括:选择单元,用于选择所述知识图谱中最接近查询文本的节点词向量;扩展单元,用于扩展所述查询文本;计算单元,用于计算扩展后查询文本与语料库文本单元的语义相似度;提取单元,用于提取语义相似度最高的若干语料库文本单元。
本发明实施例提供一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述交互式检索方法。
本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述交互式检索方法。
本发明提供的一种交互式检索方法、装置、计算机设备及存储介质,首先结合知识图谱,对用户输入的查询语句进行扩展,之后从语料库文本单元列表中,选择与扩展后查询语句语义相似度较高的若干文档,返回至用户,最后根据用户行为调整所述知识图谱中各节点权重,优化检索结果。
本方案提出一种交互式检索方法、装置、计算机设备及存储介质,以电子飞行包作为航电硬件载体与飞行员进行查询行为的交互,通过基于飞行操作语料库上下文语义的深度学习和基于飞行员查询行为日志的强化学习生成飞行操作知识图谱,对飞行操作知识和飞行员经验知识进行量化推理与洞察,最终实现适应飞行员查询习惯和查询意图的个性化智能查询方法。与现有技术相比,本方案有效提升了电子飞行包的检索效率,保障飞行运行的安全,使民航飞机飞行操作更加现代化,有效确保飞行安全、减轻飞行员工作负担、提高航空公司经济效益,同时提高了民航飞机的核心竞争力。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例中交互式检索方法的总流程图;
图2是本发明一实施例中首次进行交互式检索前构建知识图谱的流程图;
图3是本发明一实施例中扩展查询语句的流程图;
图4是本发明一实施例中交互式检索装置的框图;
图5是本发明一实施例中一计算机设备的装置图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明提供的一实施例中,提供一种交互式检索方法,所述知识图谱在第一次检索前构建或直接获取现有知识图谱。
在本发明的一个实施例中,所述知识图谱应在第一次检索前进行构建(即步骤S0),具体构建方法如图2所示,包括如下步骤:
步骤S001,将源文件转化为标准文档格式,并构建语料库;
所述源文件为FCOM、SOP、QRH等为飞行员提供重要参考的飞行手册技术出版物,上述出版物已在航空公司广泛使用。为了满足航空公司交互式查阅手册、信息共享、以及易于维护更新的需求,飞机主制造商参照S1000D和ATA2300标准实现了一些飞行手册技术出版物的电子化和数字化。各个航空公司所配备的飞行参考资料较为多样,有飞行手册纸质文件、飞行手册PDF文件、交互式电子飞行手册、咨询通告等不同格式的数据来源,为了对基础数据进行维护更新,有必要采取统一的标准解析这些数据。
根据源文件的可编辑性对源文件类型划分,可以划分为文本文件类型(TXT、EXCEL、WORD、XML)和PDF文件类型。源文件分解的最基本单元是一段有相对完整的语义和逻辑的文档,以文档为不可分割的最小原子单位,对源文件分解为多个文档的组合。
本申请通过严格的逻辑层级为每个文档分别添加ID属性、TITLE属性、AIRCRAFT_NUMBER属性和VALUE属性,生成标准文档格式,各属性具体说明如下:
ID属性(识别符属性),是文档在源文件的具体位置的唯一标识符,是通过“.”字符分隔的5位字符串,UI界面设计开发人员可以提取该字符串,快速定位该文本在源文件所处的具体章、节、子节、文档位置;
TITLE属性(标题属性),是文档的标题,如果在源文件中没有对应的标题,则继承子节标题或者更上层级标题,是通过”.”字符分割的4位字符串,UI界面设计人员可以提取该字符串,呈现在电子飞行包界面;
AIRCRAFT_NUMBER属性(适用范围属性)是飞机号范围,用于记录所述文档的适用范围,由于航空公司在不同的航线上对飞机做了相应的配置,因此文档中记载的操作步骤也会有一定的改变;
VALUE属性(值属性),为文档的具体内容。所述文档是飞行手册中具有较为完整内容的文字组合段落。
使用XML解析工具提取出VALUE属性所对应的内容,并通过航空专业词典增强的分词器转化为标准格式(例如UTF-8等)的语料库基本单元。语料库基本单元是按照上下文顺序排列的词组合段落,语料库基本单元的每个词将在后续的深度学习模型训练中生成稠密词向量。
步骤S002,对词语进行深度神经网络训练,得到稠密词向量;
本发明采用深度学习模型(例如word2vec,BERT模型等)对语料库基本单元中的每个词进行训练。在语料库中提取中心词,并以中心词前后固定长度(窗口参数)范围内的词语序列作为模型输入,利用权重矩阵将词语序列表示为相应的200维稠密向量,损失函数选择交叉熵,以中心词预测条件概率作为优化目标,采用合适的优化算法(例如SGD随机梯度下降算法等)反向传播优化参数矩阵,并以此为基础对权重矩阵进行深度神经网络训练。
本步骤中的操作不仅适用于生成语料库基本单元中词语的稠密词向量,还可用于生成用于输入语句中词语的稠密词向量。
具体训练的步骤如下:
a)被训练的词通过词袋模型转化为一个只有0或者1为元素的初始词向量其中,初始词向量的长度为所有词语集合的总个数|V|(不计重复的词语),被训练词所在位置上的向量元素为1,其他位置上的向量元素为0,通常称为独热编码过程,不同独热编码的初始词向量之间是完全独立的;
b)设定窗口的半径为m(m>0)。以被训练词语x(c)为中心词,以中心词前后各m个词作为窗口词,形成一个不含中心词的窗口词初始向量序列:
x(c-m),x(c-m+1),…,x(c-1),x(c+1),…,x(c+m-1),x(c+m)
c)初始化输入权重矩阵这里的n为稠密维数,一般远远小于整个语料库词语集合的总个数|V|,目的是为了学习词语前后文的语义和句法依存特征。同时,为了避免学习梯度为0所导致的训练失败,一般对输入权重矩阵/>采用(0,1)区间随机变量进行初始化。通过这个输入权重矩阵/>对窗口词初始向量序列进行转化,形成窗口词稠密向量序列为:/>
d)计算上下文稠密词向量中心词的前m个窗口词稠密向量和后m个窗口稠密词向量分别保存了中心词前m个词、后m个词对中心词的单个语义依赖关系。通过对这些稠密向量求和平均,得到/>
体现了中心词前后文对中心词的整体语义依赖关系;
e)初始化输出权重矩阵类似于c)步骤的考虑,同样是为了避免学习梯度为0导致的训练失败,一般对输出矩阵/>采用(0,1)区间随机变量进行初始化,将d)得到的上下文稠密词向量转化为词袋模型原有规模|V|大小的分数向量:/>
f)计算条件概率p(wc|wc-m,…,wc-1,wc+1,…,wc+m)。从e)步得到的分数向量是没有归一化的,通过softmax函数对分数向量归一化处理,可以得到词袋模型中所有词的条件概率分布。具体计算方式如下:
其中的第c个分量即为中心词在上下文窗口词中的条件概率大小:
p(wc|wc-m,…,wc-1,wc+1,…,wc+m);
g)计算条件概率分布的损失函数。由于f)计算的条件概率分布是通过权重矩阵估计得到的,和真实的条件概率分布会有一定的差别。在理想情形下,真实条件概率分布应当呈现为如下形式:
即在第c个分量出现中心词的条件概率为1,在其他任何分量出现该中心词的概率为0。深度学习模型优化的目标是使得f)的计算条件概率分布和真实条件概率分布的差距尽量小。这种概率分布的差距大小一般采用交叉熵(Cross-Entropy)进行描述,即
h)反向传播进行随机梯度下降训练。随机选取语料库中的一个词作为中心词,以该词所处参数计算损失函数H关于输入参数矩阵的梯度大小,
为了避免出现随机梯度下降的不收敛情形,在训练过程中逐渐减小学习律α;
i)返回c)步骤并替换原有的输入参数矩阵采用更新后的输入参数矩阵执行c)、d)、e)、f)、g)、h),直到损失函数小于一定的阈值之后,深度学习模型训练停止,利用最新得到的输入参数矩阵/>计算输出/>即上下文稠密词向量和中心词词向量。所述每个词的稠密词向量即中心词的稠密词向量。
步骤S003,根据所述稠密词向量之间的相似度构建知识图谱;
在本发明提供的一个实施例中,通过余弦相似度对不同词向量之间的语义相似度进行量化。两个不同的词向量可视化为知识图谱KG中的头实体节点wh和尾实体节点wt,而他们之间的语义相似度则可视化为两个节点之间的权重边
在飞行操作知识图谱添加三元组元素对应为飞行操作知识图谱中的(头实体、关系、尾实体)基本元素。词向量之间的语义相似度r范围为[-1,1]闭区间。r越大,两个节点在知识图谱中的距离越近。
在本发明提供的一个实施例中,可直接获取现有飞行操作知识图谱应用到检索中。
在获得飞行操作知识图谱之后,将其应用于交互式检索方法,具体实施方式如图1所示,具体包括:
步骤S1,结合知识图谱,对用户输入的查询语句进行扩展,具体流程如图3所示:
所述知识图谱已由上述步骤创建或获取。
飞行员通过在电子飞行包的查询框中输入查询文本,实现飞行员向用户界面提出查询意图的人机交互功能。飞行员输入的查询文本以字符串的形式传入后台程序,作为深度学习训练的输入。经过与步骤S002相同的步骤,得到查询文本的稠密词向量,以下称为查询语句。由于飞行员输入的查询文本含有多个词,因此查询语句是含有多个词的集合形式。
步骤S101,在所述知识图谱中,查找所述查询语句所对应的若干节点;
在本发明提供的一个实施例中,针对飞行员的查询语句Q=(q1,q2,…,qk),查找飞行操作知识图谱中的对应节点
步骤S102,查找所述查询语句所对应节点的最近节点;
在本发明提供的一个实施例中,选择与所述对应节点关系最近的节点上述节点应满足/>如果知识图谱没有满足要求的三元组,即该节点为末梢节点,则返回空值。
步骤S103,将所述最近节点所对应的专业词语添加到查询语句中,组成新的查询语句。
在本发明提供的一个实施例中,将与所述对应节点关系最近的节点的词向量,加入到原查询语句中,扩展为新的查询语句考虑到空值情形,扩展查询语句的长度|Qext|不大于2k,不小于k。
步骤S2,从文档库中,选择与扩展后查询语句相似度较高的若干文档,返回至用户;
所述语料库文本单元列表,在构建知识图谱时的步骤S001中获得。语料库基本单元是按照上下文顺序排列的词组合段落,语料库基本单元中的每个词在深度学习模型训练中生成词向量,组成语料库文本单元T=(t1,t2,…,ts),为含有多个词的集合。
语料库文本单元与扩展后查询语句的语义相似度计算方法如下:
1、计算扩展后查询语句平均稠密词向量
2、计算语料库文本单元平均稠密词向量
3、计算飞行查询语句和语料库文本单元的语义相似度
在本发明提供的一个实施例中,通过倒排序的方法选出与拓展后查询语句语义相似度最高的5个文本单元,并返回这些文本单元的ID属性和TITLE属性,采用合适的摘要提取程序提取出相应的摘要内容。将这5个文本单元的ID属性、TITLE属性、摘要内容一起显示在电子飞行包的用户界面上,形成推荐词条,供飞行员点击选择。
步骤S3,根据用户行为调整所述知识图谱中各节点权重,优化检索结果。
在本发明提供的一个实施例中,所述用户行为包括查询行为和点击行为,
飞行员根据电子飞行包反馈的若干条推荐摘要,点击最符合当前自身需要的摘要文本。电子飞行包软件通过监听机制获取飞行员输入查询文本的开始时间、查询文本的内容、点击摘要时间、被点击摘要所处的次序位置、被点击摘要所在的文本文档。将上述5个维度的信息记录为飞行员查询日志。
根据飞行员查询日志,在知识图谱中调整与飞行员点击行为相关节点之间的权重,将查询词向量、结果词向量、飞行员是否点击的Bool型变量等信息录入知识图谱,将知识图谱中以查询词向量为头实体、结果词向量为尾实体的关联关系进行增强,增强方式通过一个奖励因子α(0<α<1)来实现,具体调整的计算方式如下:
设调整之前词向量1(查询文本)和词向量2(飞行员选择文本)的权重为r12,由于词向量2被飞行员选择,则通过奖励因子α(0<α<1)增强词向量1和词向量2的关联权重,学习飞行员的查询意图,调整后的权重为r′12=α+(1-α)·r12∈(r12,1)。
对调整后的知识图谱进行保存,以供下次检索时直接调用。整个学习过程构成一个闭环,以人在环中的交互式检索的方式,可以形成符合飞行员个性需求的专有查询工具,提高检索效率。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在一实施例中,提供一种交互式检索装置,该交互式检索装置与上述实施例中交互式检索装置方法一一对应。如图4所示,该交互式检索装置包括输入模块10,深度学习模块20,匹配模块30,输出模块40,反馈模块50。各功能模块详细说明如下:
输入模块10,用于用户输入查询文本、点击摘要文本等实现用户提出查询意图的人机交互功能;
飞行员通过在电子飞行包的查询框中输入查询文本,实现飞行员向用户界面提出查询意图的人机交互功能。飞行员输入的查询文本作为字符串传入后台程序,作为深度学习训练的输入。
深度学习模块20,用于对词语进行训练,得到词语的稠密词向量;采用深度学习模型对语料库基本单元中的每个词进行训练。
匹配模块30,用于根据所述查询文本,匹配相似的语料库文本单元;
输出模块40,用于向用户输出检索结果和推荐结果;
将匹配模块30中匹配到的若干文本单元的ID属性和TITLE属性返回,采用合适的摘要提取程序提取出相应的摘要内容。将这5个文本单元的ID属性、TITLE属性、摘要内容一起显示在电子飞行包的用户界面上,供飞行员点击选择。
反馈模块50,用于依据用户行为增强知识图谱中信息的关联性。
飞行员根据电子飞行包反馈的若干条推荐摘要,点击最符合当前自身需要的摘要文本。电子飞行包软件通过监听机制获取飞行员输入查询文本的开始时间、查询文本的内容,以及点击摘要时间,被点击摘要所处的次序位置,以及被点击摘要所在的文本文档。将上述信息记录为飞行员查询日志。
根据飞行员查询日志,在知识图谱中调整与飞行员点击行为相关节点之间的权重,调整的计算方式如下:
设调整之前词向量1(查询文本)和词向量2(飞行员选择文本)的权重为r12,由于词向量2被飞行员选择,则通过奖励因子α(0<α<1)增强词向量1和词向量2的关联权重,学习飞行员的查询意图,调整后的权重为r′12=α+(1-α)·r12∈(r12,1)。
对调整后的知识图谱进行保存,以供下次检索时直接调用。经过若干次查询后,知识图谱将更贴合飞行员的查询意图和查询习惯,提高检索效率。
在一实施例中,上述交互式检索装置还包括:
预处理模块60,用于处理源文件,将其转化为统一格式,并利用分词器构建语料库;
所述源文件为FCOM、SOP、QRH等为飞行员提供重要参考的飞行手册技术出版物,上述出版物已在航空公司广泛使用。为了满足航空公司交互式查阅手册、信息共享、以及易于维护更新的需求,飞机主制造商参照S1000D和ATA2300标准实现了一些飞行手册技术出版物的电子化和数字化。各个航空公司所配备的飞行参考资料较为多样,有飞行手册纸质文件、飞行手册PDF文件、交互式电子飞行手册、咨询通告等不同格式的数据来源,为了对基础数据进行维护更新,有必要采取统一的标准解析这些数据。
根据源文件的可编辑性对源文件类型划分,可以划分为文本文件类型(TXT、EXCEL、WORD、XML)和PDF文件类型。源文件分解的最基本单元是一段有相对完整的语义和逻辑的文档,以文档为不可分割的最小原子单位,对源文件分解为多个文档的组合。
本申请通过严格的逻辑层级为每个文档分别添加ID属性、TITLE属性、AIRCRAFT_NUMBER属性和VALUE属性,生成标准文档格式。
使用XML解析工具提取出VALUE属性所对应的内容,并通过航空专业词典增强的分词器转化为utf8格式的语料库基本单元。语料库基本单元是按照上下文顺序排列的词组合段落,语料库基本单元的每个专业词汇将在后续的深度学习模型训练中生成词向量。
构建模块70,用于在首次检索前构建知识图谱。
首先利用深度学习模块20,将语料库基本单元中的每个专业词汇进行训练,以生成稠密词向量。通过余弦相似度对不同词向量之间的语义相似度进行量化。两个不同的词向量可视化为知识图谱KG中的头实体节点wh和尾实体节点wt,而他们之间的语义相似度则可视化为两个节点之间的权重边
在飞行操作知识图谱添加三元组元素词向量之间的语义相似度r范围为[-1,1]闭区间。r越大,两个节点在知识图谱中的距离越近。
在本发明提供的一个实施例中,所述匹配模块30包括:
选择单元301,用于选择所述知识图谱中最接近查询文本的节点词向量;
在本发明提供的一个实施例中,针对飞行员的查询语句Q=(q1,q2,…,qk),查找飞行操作知识图谱中的对应节点
扩展单元302,用于扩展所述查询文本;
在本发明提供的一个实施例中,选择与所述对应节点关系最近的节点上述节点应满足/>如果知识图谱没有满足要求的三元组,即该节点为末梢节点,则返回空值。
在本发明提供的一个实施例中,将与所述对应节点关系最近的节点的词向量,加入到原查询语句中,扩展为新的查询语句考虑到空值情形,扩展查询语句的长度|Qext|不大于2k,不小于k。
计算单元303,用于计算扩展后查询文本与语料库文本单元的语义相似度;
所述语料库文本单元列表,在构建知识图谱时获得。语料库基本单元是按照上下文顺序排列的词组合段落,语料库基本单元中的每个词在深度学习模型训练中生成词向量,组成语料库文本单元T=(t1,t2,…,ts),为含有多个词的集合。
语料库文本单元与扩展后查询语句的语义相似度计算方法如下:
1、计算扩展后查询语句平均稠密词向量
2、计算语料库文本单元平均稠密词向量
3、计算飞行查询语句和语料库文本单元的语义相似度
提取单元304,用于提取语义相似度最高的若干语料库文本单元。
在本发明提供的一个实施例中,通过倒排序方法选出语义相似度最高的5个文本单元,并返回这些文本单元的ID属性和TITLE属性,采用合适的摘要提取程序得到相应的摘要内容。将这5个文本单元的ID属性、TITLE属性、摘要内容一起显示在电子飞行包的用户界面上,供飞行员点击选择。
关于交互式检索装置的具体限定可以参见上文中对于交互式检索方法的限定,在此不再赘述。上述交互式检索装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种交互式检索方法。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
步骤S1,结合知识图谱,对用户输入的查询语句进行扩展;
步骤S2,从文档库中,选择与扩展后查询语句相似度较高的若干文档,返回至用户;
步骤S3,根据用户行为调整所述知识图谱中各节点权重,优化检索结果。
可选的,首次检索前,需要构建知识图谱或获取现有知识图谱,其中构建知识图谱,即步骤S0,具体包括:步骤S001,将源文件转化为标准文档格式,并构建语料库;步骤S002,对词语进行深度神经网络训练,得到稠密词向量;步骤S003,根据所述稠密词向量之间的相似度构建知识图谱;
可选的,所述标准文档格式包含以下属性:识别符属性,用于表示文档在源文件中的具体位置;标题属性,用于记录所述文档标题;适用范围属性,用于记录所述文档适用范围的具体规定;值属性,用于记录所述文档的具体内容。
可选的,在所述步骤S1中,所述知识图谱以所述词向量对应的词语为节点,以所述词向量之间的语义相似度为权重边。
可选的,所述步骤S1包括:S101,在所述知识图谱中,查找所述查询语句所对应的若干节点;S102,查找所述查询语句所对应节点的最近节点;S103,将所述最近节点所对应的专业词语添加到查询语句中,组成新的查询语句。
可选的,步骤S2中的所述语义相似度,由词语集合的平均稠密词向量计算得到。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
步骤S1,结合知识图谱,对用户输入的查询语句进行扩展;
步骤S2,从文档库中,选择与扩展后查询语句相似度较高的若干文档,返回至用户;
步骤S3,根据用户行为调整所述知识图谱中各节点权重,优化检索结果。
可选的,首次检索前,需要构建知识图谱或获取现有知识图谱,其中构建知识图谱,即步骤S0,具体包括:步骤S001,将源文件转化为标准文档格式,并构建语料库;步骤S002,对词语进行深度神经网络训练,得到稠密词向量;步骤S003,根据所述稠密词向量之间的相似度构建知识图谱;
可选的,所述标准文档格式包含以下属性:识别符属性,用于表示文档在源文件中的具体位置;标题属性,用于记录所述文档标题;适用范围属性,用于记录所述文档适用范围的具体规定;值属性,用于记录所述文档的具体内容。
可选的,在所述步骤S1中,所述知识图谱以所述词向量对应的词语为节点,以所述词向量之间的语义相似度为权重边。
可选的,所述步骤S1包括:S101,在所述知识图谱中,查找所述查询语句所对应的若干节点;S102,查找所述查询语句所对应节点的最近节点;S103,将所述最近节点所对应的专业词语添加到查询语句中,组成新的查询语句。
可选的,步骤S2中的所述语义相似度,由词语集合的平均稠密词向量计算得到。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (8)

1.一种交互式检索方法,其特征在于,所述方法包括:
步骤S1,结合知识图谱,对用户输入的查询语句Q=(q1,q2,…,qk)进行扩展;
步骤S2,从文档库中,选择与扩展后查询语句相似度较高的若干文档,返回至用户;其中,语料库基本单元是按照上下文顺序排列的词组合段落,语料库基本单元中的每个词在深度学习模型训练中生成词向量,组成语料库文本单元T=(t1,t2,…,ts),为含有多个词的集合;语料库文本单元与扩展后查询语句的语义相似度计算方法如下:
(1)计算扩展后查询语句平均稠密词向量其中,Qext为扩展后查询语句,z为扩展后查询语句的长度,扩展后查询语句的长度不大于2k,不小于k;qi为扩展后查询语句的第i个词,wqi为qi的稠密词向量;
(2)计算语料库文本单元平均稠密词向量其中,tj为语料库文本单元的第j个词,wtj为tj的稠密词向量;
(3)计算查询语句和语料库文本单元的语义相似度
通过倒排序的方法选出与拓展后查询语句语义相似度最高的5个文本单元,并返回这些文本单元的ID属性和TITLE属性,采用合适的摘要提取程序提取出相应的摘要内容;
步骤S3,根据用户行为调整所述知识图谱中各节点权重,优化检索结果;其中,根据飞行员查询日志,在知识图谱中调整与飞行员点击行为相关节点之间的权重,将查询词向量、结果词向量、飞行员是否点击的Bool型变量录入知识图谱,将知识图谱中以查询词向量为头实体、结果词向量为尾实体的关联关系进行增强,增强方式通过一个奖励因子α来实现;设调整之前词向量1和词向量2的权重为r12,由于词向量2被飞行员选择,则通过奖励因子α增强词向量1和词向量2的关联权重,学习飞行员的查询意图,调整后的权重为r'12=α+(1-α)·r12∈(r12,1);词向量1为查询语句,词向量2为飞行员选择文本;
首次检索前,需要构建知识图谱,其中构建知识图谱,即步骤S0,具体包括:
步骤S001,将源文件转化为标准文档格式,并构建语料库;
步骤S002,对词语进行深度神经网络训练,得到稠密词向量;
步骤S003,根据所述稠密词向量之间的相似度构建知识图谱;
其中,对词语进行深度神经网络训练,得到稠密词向量,包括:
采用深度学习模型对语料库基本单元中的每个词进行训练;在语料库中提取中心词,并以中心词前后固定长度范围内的词语序列作为模型输入,利用权重矩阵将词语序列表示为相应的200维稠密向量,损失函数选择交叉熵,以中心词预测条件概率作为优化目标,采用合适的优化算法反向传播优化参数矩阵,并以此为基础对权重矩阵进行深度神经网络训练。
2.根据权利要求1所述的交互式检索方法,其特征在于,所述标准文档格式包含以下属性:
识别符属性,用于表示文档在源文件中的具体位置;
标题属性,用于记录所述文档标题;
适用范围属性,用于记录所述文档适用范围的具体规定;
值属性,用于记录所述文档的具体内容。
3.根据权利要求1所述的交互式检索方法,其特征在于,在所述步骤S1中,所述知识图谱以词向量对应的词语为节点,以所述词向量之间的语义相似度为权重边。
4.根据权利要求1所述的交互式检索方法,其特征在于,所述步骤S1包括:
S101,在所述知识图谱中,查找所述查询语句所对应的若干节点;
S102,查找所述查询语句所对应节点的最近节点;
S103,将所述最近节点所对应的词语添加到查询语句中,组成新的查询语句。
5.根据权利要求1所述的交互式检索方法,其特征在于,步骤S2中的所述语义相似度,
由词语集合的平均稠密词向量计算得到。
6.一种交互式检索装置,其特征在于,所述装置包括:
输入模块,用于用户输入查询语句Q=(q1,q2,…,qk)、点击摘要文本实现用户提出查询意图的人机交互功能;
深度学习模块,用于对词语进行训练,得到词语的稠密词向量;
匹配模块,用于根据所述查询语句,匹配相似的语料库文本单元;其中,语料库基本单元是按照上下文顺序排列的词组合段落,语料库基本单元中的每个词在深度学习模型训练中生成词向量,组成语料库文本单元T=(t1,t2,…,ts),为含有多个词的集合;语料库文本单元与扩展后查询语句的语义相似度计算方法如下:
(1)计算扩展后查询语句平均稠密词向量其中,Qext为扩展后查询语句,z为扩展后查询语句的长度,扩展后查询语句的长度不大于2k,不小于k;qi为扩展后查询语句的第i个词,wqi为qi的稠密词向量;
(2)计算语料库文本单元平均稠密词向量其中,tj为语料库文本单元的第j个词,wtj为tj的稠密词向量;
(3)计算查询语句和语料库文本单元的语义相似度
通过倒排序的方法选出与拓展后查询语句语义相似度最高的5个文本单元,并返回这些文本单元的ID属性和TITLE属性,采用合适的摘要提取程序提取出相应的摘要内容;
输出模块,用于向用户输出检索结果和推荐结果;
反馈模块,用于依据用户行为增强知识图谱中信息的关联性;其中,根据飞行员查询日志,在知识图谱中调整与飞行员点击行为相关节点之间的权重,将查询词向量、结果词向量、飞行员是否点击的Bool型变量录入知识图谱,将知识图谱中以查询词向量为头实体、结果词向量为尾实体的关联关系进行增强,增强方式通过一个奖励因子α来实现;设调整之前词向量1和词向量2的权重为r12,由于词向量2被飞行员选择,则通过奖励因子α增强词向量1和词向量2的关联权重,学习飞行员的查询意图,调整后的权重为r'12=α+(1-α)·r12∈(r12,1);词向量1为查询语句,词向量2为飞行员选择文本;
所述装置还包括:
预处理模块,用于处理源文件,将其转化为统一格式,并利用分词器构建语料库;
构建模块,用于在首次检索前构建知识图谱;
构建知识图谱,具体包括:
步骤S001,将源文件转化为标准文档格式,并构建语料库;
步骤S002,对词语进行深度神经网络训练,得到稠密词向量;
步骤S003,根据所述稠密词向量之间的相似度构建知识图谱;
其中,对词语进行深度神经网络训练,得到稠密词向量,包括:
采用深度学习模型对语料库基本单元中的每个词进行训练;在语料库中提取中心词,并以中心词前后固定长度范围内的词语序列作为模型输入,利用权重矩阵将词语序列表示为相应的200维稠密向量,损失函数选择交叉熵,以中心词预测条件概率作为优化目标,采用合适的优化算法反向传播优化参数矩阵,并以此为基础对权重矩阵进行深度神经网络训练。
7.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述交互式检索方法。
8.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述交互式检索方法。
CN202011169946.2A 2020-10-28 2020-10-28 一种交互式检索方法、装置、计算机设备及存储介质 Active CN112380352B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202011169946.2A CN112380352B (zh) 2020-10-28 2020-10-28 一种交互式检索方法、装置、计算机设备及存储介质
PCT/CN2020/135364 WO2022088409A1 (zh) 2020-10-28 2020-12-10 一种交互式检索方法、装置、计算机设备及存储介质
EP20959568.5A EP4047505A4 (en) 2020-10-28 2020-12-10 INTERACTIVE RETRIEVING METHOD AND DEVICE, AND COMPUTER DEVICE AND STORAGE MEDIA

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011169946.2A CN112380352B (zh) 2020-10-28 2020-10-28 一种交互式检索方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN112380352A CN112380352A (zh) 2021-02-19
CN112380352B true CN112380352B (zh) 2024-06-18

Family

ID=74576270

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011169946.2A Active CN112380352B (zh) 2020-10-28 2020-10-28 一种交互式检索方法、装置、计算机设备及存储介质

Country Status (3)

Country Link
EP (1) EP4047505A4 (zh)
CN (1) CN112380352B (zh)
WO (1) WO2022088409A1 (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113139389B (zh) * 2021-04-29 2023-01-13 南宁师范大学 基于动态优化的图模型语义查询扩展方法和装置
CN113449915B (zh) * 2021-06-28 2023-10-27 中国电子科技集团公司第二十八研究所 一种基于知识图谱的航班延误预测方法
CN113434696A (zh) * 2021-06-28 2021-09-24 平安科技(深圳)有限公司 基于知识图谱的搜索结果更新方法、装置和计算机设备
CN114579676B (zh) * 2022-05-07 2022-07-15 中科雨辰科技有限公司 一种基于组合关系的检索系统
CN114912032A (zh) * 2022-05-11 2022-08-16 平安科技(深圳)有限公司 信息推荐方法、装置、电子设备及存储介质
CN115186660B (zh) * 2022-07-07 2023-05-05 东航技术应用研发中心有限公司 基于文本相似度模型的航空安全报告分析评价方法
CN115599892B (zh) * 2022-12-15 2023-03-21 中国人民解放军国防科技大学 面向社交网络数据的语义搜索方法
FR3144335A1 (fr) * 2022-12-26 2024-06-28 Thales Procédé de génération d'un signal comprenant des graphes de connaissances fusionnés et produit programme d'ordinateur associé
CN116433799B (zh) * 2023-06-14 2023-08-25 安徽思高智能科技有限公司 一种基于语义相似度和子图匹配的流程图生成方法和装置
CN117009519A (zh) * 2023-07-19 2023-11-07 上交所技术有限责任公司 一种基于词袋模型的企业挂靠产业方法
CN116662521B (zh) * 2023-07-26 2023-11-14 广东省建设工程质量安全检测总站有限公司 一种电子文档筛选查询方法及系统
CN117271712A (zh) * 2023-11-21 2023-12-22 上海爱可生信息技术股份有限公司 基于向量数据库的检索方法、系统及电子设备
CN117312688B (zh) * 2023-11-29 2024-01-26 浙江大学 基于时空资产目录的跨源数据检索方法、介质及设备
CN118013020B (zh) * 2024-04-09 2024-06-18 北京知呱呱科技有限公司 一种基于检索生成联合式训练的专利查询方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109359178A (zh) * 2018-09-14 2019-02-19 华南师范大学 一种检索方法、装置、存储介质及设备
CN109753664A (zh) * 2019-01-21 2019-05-14 广州大学 一种面向领域的概念抽取方法、终端设备及存储介质
CN111353030A (zh) * 2020-02-26 2020-06-30 陕西师范大学 基于旅游领域知识图谱的知识问答检索方法及装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6185558B1 (en) * 1998-03-03 2001-02-06 Amazon.Com, Inc. Identifying the items most relevant to a current query based on items selected in connection with similar queries
JP3918531B2 (ja) * 2001-11-29 2007-05-23 株式会社日立製作所 類似文書検索方法およびシステム
US8359309B1 (en) * 2007-05-23 2013-01-22 Google Inc. Modifying search result ranking based on corpus search statistics
CN102231165B (zh) * 2011-07-11 2013-01-09 浙江大学 一种基于用户停留时间分析的个性化网页搜索排序方法
US10558687B2 (en) * 2016-10-27 2020-02-11 International Business Machines Corporation Returning search results utilizing topical user click data when search queries are dissimilar
CN108647318A (zh) * 2018-05-10 2018-10-12 北京航空航天大学 一种基于多源数据的知识融合方法
CN109522465A (zh) * 2018-10-22 2019-03-26 国家电网公司 基于知识图谱的语义搜索方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109359178A (zh) * 2018-09-14 2019-02-19 华南师范大学 一种检索方法、装置、存储介质及设备
CN109753664A (zh) * 2019-01-21 2019-05-14 广州大学 一种面向领域的概念抽取方法、终端设备及存储介质
CN111353030A (zh) * 2020-02-26 2020-06-30 陕西师范大学 基于旅游领域知识图谱的知识问答检索方法及装置

Also Published As

Publication number Publication date
CN112380352A (zh) 2021-02-19
EP4047505A1 (en) 2022-08-24
WO2022088409A1 (zh) 2022-05-05
EP4047505A4 (en) 2023-01-18

Similar Documents

Publication Publication Date Title
CN112380352B (zh) 一种交互式检索方法、装置、计算机设备及存储介质
US11657231B2 (en) Capturing rich response relationships with small-data neural networks
US11948058B2 (en) Utilizing recurrent neural networks to recognize and extract open intent from text inputs
US10089576B2 (en) Representation learning using multi-task deep neural networks
US7606700B2 (en) Adaptive task framework
US20210133279A1 (en) Utilizing a neural network to generate label distributions for text emphasis selection
EP3598436A1 (en) Structuring and grouping of voice queries
Zu et al. Resume information extraction with a novel text block segmentation algorithm
Laclavik et al. Ontea: Platform for pattern based automated semantic annotation
WO2014073206A1 (ja) 情報処理装置、及び、情報処理方法
CN115309915B (zh) 知识图谱构建方法、装置、设备和存储介质
Peng et al. PaLM: A hybrid parser and language model
CN115329075A (zh) 基于分布式机器学习的文本分类方法
Johnson et al. A detailed review on word embedding techniques with emphasis on word2vec
Mankolli et al. Machine learning and natural language processing: Review of models and optimization problems
Kumar et al. An abstractive text summarization technique using transformer model with self-attention mechanism
CN113705222B (zh) 槽识别模型训练方法及装置和槽填充方法及装置
Bender et al. Unsupervised estimation of subjective content descriptions
US11941360B2 (en) Acronym definition network
Das Dawn et al. A dictionary based model for bengali document classification
Jaramillo et al. Word embedding for job market spatial representation: tracking changes and predicting skills demand
Sanderson et al. Integrating data and text mining processes for digital library applications
Zhang et al. Chinese named entity recognition fusing lexical and syntactic information
Lee et al. Word recommendation for English composition using big corpus data processing
Duan et al. Query Error Correction Algorithm Based on Fusion Sequence to Sequence Model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant