CN113590768B - 一种文本关联度模型的训练方法及装置、问答方法及装置 - Google Patents
一种文本关联度模型的训练方法及装置、问答方法及装置 Download PDFInfo
- Publication number
- CN113590768B CN113590768B CN202010363564.7A CN202010363564A CN113590768B CN 113590768 B CN113590768 B CN 113590768B CN 202010363564 A CN202010363564 A CN 202010363564A CN 113590768 B CN113590768 B CN 113590768B
- Authority
- CN
- China
- Prior art keywords
- word
- sample
- question
- unit
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 84
- 238000012549 training Methods 0.000 title claims abstract description 71
- 239000011159 matrix material Substances 0.000 claims abstract description 236
- 238000012545 processing Methods 0.000 claims abstract description 37
- 230000011218 segmentation Effects 0.000 claims abstract description 27
- 230000008451 emotion Effects 0.000 claims description 54
- 239000013598 vector Substances 0.000 claims description 33
- 238000004458 analytical method Methods 0.000 claims description 11
- 230000015654 memory Effects 0.000 claims description 9
- 238000007635 classification algorithm Methods 0.000 claims description 7
- 238000007499 fusion processing Methods 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 abstract description 11
- 230000002457 bidirectional effect Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 230000007935 neutral effect Effects 0.000 description 5
- 230000008520 organization Effects 0.000 description 5
- 230000002441 reversible effect Effects 0.000 description 5
- 238000009826 distribution Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 239000003086 colorant Substances 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 230000004660 morphological change Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 239000010926 waste battery Substances 0.000 description 2
- 241000590419 Polygonia interrogationis Species 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 125000003187 heptyl group Chemical group [H]C([*])([H])C([H])([H])C([H])([H])C([H])([H])C([H])([H])C([H])([H])C([H])([H])[H] 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 239000004984 smart glass Substances 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供一种文本关联度模型的训练方法及装置、问答方法及装置。其中,所述问答方法,包括:获取待回答问题,对所述待回答问题进行分词处理,获得多个问题词单元;确定所述问题词单元中的关键词单元以及所述关键词单元的词重要度,并基于所述关键词单元与所述关键词单元的词重要度生成关键词矩阵;基于所述关键词矩阵与所述文本关联度权重矩阵确定目标句子,并基于所述目标句子生成所述待回答问题的答案。本申请提供的文本关联度模型的训练方法及装置,不仅可以为问答系统智能度的提高提供助力,还可以加快训练过程中参数的收敛,提高训练速度;本申请所述的问答方法及装置可以有效提高问题回答的智能度以及生成答案的准确度和流畅度。
Description
技术领域
本申请涉及计算机技术领域,特别涉及一种文本关联度模型的训练方法及装置、问答方法及装置、计算设备及计算机可读存储介质。
背景技术
智能问答系统是信息检索系统的一种高级形式,是基于人们对快速、准确地获取信息的需求而兴起的,可以用准确、简洁的自然语言回答用户用自然语言提出的问题。
目前,现有的智能问答系统是将积累的无序语料信息进行有序和科学的整理,并建立分类模型,用以指导新增加的语料咨询和服务信息,节约人力资源,提高信息处理的自动性,降低网站运行成本,基于对网站多年积累的常见问题及其解答,整理为规范的问答库形式,以支撑各种形式问题的智能问答。
但是,现有的智能问答系统训练时间长、生成的答案较为宽泛,导致整个智能问答系统的智能度不够高,这成为亟待解决的问题。
发明内容
有鉴于此,本申请实施例提供了一种文本关联度模型的训练方法及装置、问答方法及装置、计算设备及计算机可读存储介质,以解决现有技术中存在的技术缺陷。
本申请实施例公开了一种文本关联度模型的训练方法,包括:
获取样本句子集、样本问题以及所述样本句子集中的样本句子与所述样本问题之间的关联度矩阵标签;
将所述样本句子和所述样本问题进行分词处理,获得至少一个样本句子词单元和至少一个样本问题词单元;
分别确定所述样本句子词单元与所述样本问题词单元的词重要度,将所述样本句子词单元和所述样本句子词单元的词重要度、所述样本问题词单元和所述样本问题词单元的词重要度输入至文本关联度模型中进行处理,生成所述样本句子和所述样本问题之间的初始文本关联度权重矩阵;
基于所述初始文本关联度权重矩阵与所述关联度矩阵标签对所述文本关联度模型进行迭代训练,直至达到训练停止条件,获得所述文本关联度模型输出的文本关联度权重矩阵。
进一步地,在所述获取样本句子集之前,还包括:
获取语料文本,通过主题分类算法对所述语料文本进行分类,获得具有类别标签的多个样本句子集。
进一步地,所述分别确定所述样本句子词单元与所述样本问题词单元的词重要度,包括:
分别确定所述样本句子词单元与所述样本问题词单元的词频、词性和情感极性;
基于所述样本句子词单元的词频、词性和情感极性确定所述样本句子词单元的词重要度;
基于所述样本问题词单元的词频、词性和情感极性确定所述样本问题词单元的词重要度。
进一步地,所述将所述样本句子词单元和所述样本句子词单元的词重要度、所述样本问题词单元和所述样本问题词单元的词重要度输入至文本关联度模型中进行处理,生成所述样本句子和所述样本问题之间的初始文本关联度权重矩阵,包括:
将所述样本句子词单元和所述样本句子词单元的词重要度、所述样本问题词单元和所述样本问题词单元的词重要度输入至文本关联度模型中;
基于所述样本句子词单元和所述样本句子词单元的词重要度、所述样本问题词单元和所述样本问题词单元的词重要度确定所述样本句子词单元与所述样本问题词单元之间的关联度;
基于所述样本句子词单元与所述样本问题词单元之间的关联度,生成所述样本句子与所述样本问题之间的初始文本关联度权重矩阵。
进一步地,所述基于所述初始文本关联度权重矩阵与所述关联度矩阵标签对所述文本关联度模型进行迭代训练,包括:
基于所述初始文本关联度权重矩阵与所述关联度矩阵标签确定损失值,并判断所述损失值是否大于预设阈值;
若是,则基于所述损失值对所述文本关联度模型进行调整;
若否,则结束训练并输出文本关联度权重矩阵。
本申请实施例还提供了一种问答方法,包括:
获取待回答问题,对所述待回答问题进行分词处理,获得多个问题词单元;
确定所述问题词单元中的关键词单元以及所述关键词单元的词重要度,并基于所述关键词单元与所述关键词单元的词重要度生成关键词矩阵;
基于所述关键词矩阵与所述文本关联度权重矩阵确定目标句子,并基于所述目标句子生成所述待回答问题的答案。
进一步地,所述确定所述问题词单元中的关键词单元,包括:
确定每一个所述问题词单元的词频、词性和/或情感极性,并基于所述问题词单元的词频、词性和/或情感极性确定关键词单元。
进一步地,所述确定所述关键词单元的词重要度,包括:
确定每一个所述关键词单元的词频、词性和情感极性;
基于所述关键词单元的词频、词性和情感极性确定所述关键词单元的词重要度。
进一步地,所述基于所述关键词单元与所述关键词单元的词重要度生成关键词矩阵,包括:
基于所述关键词单元获得词向量矩阵;
基于所述关键词单元的词重要度获得词重要度矩阵;
将所述词向量矩阵和所述词重要度矩阵进行融合处理,生成关键词矩阵。
进一步地,所述基于所述关键词矩阵与所述文本关联度权重矩阵确定目标句子,包括:
确定所述关键词矩阵与预设句子集的类别标签之间的类别关联度,并基于所述类别关联度确定目标句子集;
基于关键词矩阵与目标句子集中每一个句子的文本关联度权重矩阵确定所述待回答问题与所述目标句子集中每一个句子之间的内容关联度,并基于所述内容关联度确定至少一个目标句子。
进一步地,所述基于所述目标句子生成所述待回答问题的答案,包括:
通过语义分析单元提取所述目标句子中的目标词单元;
基于所述目标词单元生成所述待回答问题的答案。
进一步地,所述问答方法,还包括:
通过实体识别单元识别所述目标句子中的时间标签,并基于所述时间标签对所述待回答问题的答案进行更新。
进一步地,所述问答方法,还包括:
通过净化单元过滤所述答案中的负面词单元,并对所述答案进行更新。
本申请还提供一种文本关联度模型的训练装置,包括:
样本获取模块,被配置为获取样本句子集、样本问题以及所述样本句子集中的样本句子与所述样本问题之间的关联度矩阵标签;
分词处理模块,被配置为将所述样本句子和所述样本问题进行分词处理,获得至少一个样本句子词单元和至少一个样本问题词单元;
矩阵生成模块,被配置为分别确定所述样本句子词单元与所述样本问题词单元的词重要度,将所述样本句子词单元和所述样本句子词单元的词重要度、所述样本问题词单元和所述样本问题词单元的词重要度输入至文本关联度模型中进行处理,生成所述样本句子和所述样本问题之间的初始文本关联度权重矩阵;
迭代训练模块,被配置为基于所述初始文本关联度权重矩阵与所述关联度矩阵标签对所述文本关联度模型进行迭代训练,直至达到训练停止条件,获得所述文本关联度模型输出的文本关联度权重矩阵。
本申请还提供一种问答装置,包括:
问题分词模块,被配置为获取待回答问题,对所述待回答问题进行分词处理,获得多个问题词单元;
关键词矩阵生成模块,被配置为确定所述问题词单元中的关键词单元以及所述关键词单元的词重要度,并基于所述关键词单元与所述关键词单元的词重要度生成关键词矩阵;
答案生成模块,被配置为基于所述关键词矩阵与所述文本关联度权重矩阵确定目标句子,并基于所述目标句子生成所述待回答问题的答案。
本申请还提供一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述指令时实现所述文本关联度模型的训练方法或者所述问答方法的步骤。
本申请还提供一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现所述文本关联度模型的训练方法或者所述问答方法的步骤。
本申请提供的文本关联度模型的训练方法及装置,通过文本关联度模型对样本句子词单元及其词重要度、样本问题词单元及其词重要度进行处理,生成样本句子和样本问题之间的初始文本关联度权重矩阵,进而获得样本句子与样本问题之间的语义关联度;再基于初始文本关联度权重矩阵和关联度矩阵标签对文本关联度模型进行迭代训练,初始文本关联度矩阵的权重系数随着训练过程的不断推进而逐步更新,不断在细粒度的层面上学习样本问题与样本句子的语义关联,从而实现初始文本关联度权重矩阵的最优化,即获得用于识别提问意图、提高智能问答准确性的文本关联度权重矩阵,不仅可以为问答系统智能度的提高提供助力,还可以加快训练过程中参数的收敛,提高训练速度。
本申请提供的问答方法及装置,通过确定待回答问题中的关键词单元及其重要度,获得关键词矩阵,将其与文本关联度权重矩阵一同处理确定目标句子,可以更好的捕捉回答问题与句子之间的语义关联,选取语义关联度高的句子作为目标句子后,再基于目标句子生成待回答问题的答案,可以有效提高问题回答的智能度以及生成答案的准确度和流畅度。
此外,本申请提供的问答方法及装置,可以通过实体识别单元提取目标句子中的时间标签,对答案进行优化,以提高答案与现实时间线之间的匹配度,进而提高答案的准确度;还可以通过净化单元过滤答案中的负面词单元,以实现答案中冗余信息的去除,敏感词、争议词等负面词的过滤。
本申请提供的问答方法及装置,还可以灵活的应用于政务问答、历史问答、常识问答等各种领域。以政务问答为例,本实施例所述的问答方法,能够全面地捕捉用户提问问题与政务文档之间的语义关联,精准地实现政务文本中的时间线匹配,以及敏感词、争议短语等的过滤,保证答案句子生成的准确度和流畅度,用准确、简洁的自然语言回答用户提出的政务领域的问题,满足人们对快速、准确地获取政务信息的需求。
附图说明
图1是本申请一实施例的计算设备的结构示意图;
图2是本申请一实施例的文本关联度模型的训练方法的步骤流程示意图;
图3是本申请一实施例的双向LSTM模型的结构示意图;
图4是本申请一实施例的问答方法的步骤流程示意图;
图5是本申请一实施例的文本关联度模型的训练装置的结构示意图;
图6是本申请一实施例的问答装置的结构示意图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
首先,对本发明一个或多个实施例涉及的名词术语进行解释。
长短期记忆网络(Long Short-Term Memory,LSTM)模型:是为了解决一般的循环神经网络(Recurrent Neural Network,RNN)存在的长期依赖问题而专门设计出来的一种时间循环神经网络,适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。LSTM模型可以用来连接先前的信息到当前的任务上,例如使用过去的语句来推测对当前语句的理解。
双向长短期记忆网络(Bi-directional Long Short-Term Memory,BiLSTM)模型:由前向LSTM与后向LSTM组合而成的模型,在自然语言处理任务中常被用来建模上下文信息,并生成对应的隐藏层向量表征。
文本关联度模型:是用于生成文本关联度权重矩阵的模型。本申请中的文本关联度模型可以为BiLSTM模型。
样本句子集:由多个属于同一个主题类别的样本句子组成的集合。
样本句子:在文本关联度模型的训练阶段输入至文本关联度模型中的句子,样本句子包括以句号、感叹号、问号等语句结束标志为分隔符分隔而成的词单元集合。
样本问题:在文本关联度模型的训练阶段,输入文本关联度模型的问题句子。
关联度矩阵标签:基于样本句子与样本问题之间的真实关联度而生成的该样本句子与该样本问题之间的文本关联度权重矩阵。
词单元(token):对输入文本做任何实际处理前,都需要将其分割成诸如词、标点符号、数字或纯字母数字等语言单元,这些单元被称为词单元。对于英文文本,词单元可以是一个单词、一个标点符号、一个数字等,对于中文文本,最小的词单元可以是一个字、一个标点符号、一个数字、一个词等。
词重要度:基于词单元在句子中的词频、词性以及情感极性而计算得到的一种权重参数。其中,句子包括样本句子、样本问题、待回答问题等。
词频:是指词单元在句子中出现的次数。其中,句子包括样本句子、样本问题、待回答问题等。
词性:是以语法特征(包括句法功能和形态变化)为主要依据、兼顾词汇意义对词单元进行划分的结果,包括名词、动词、副词等。
情感极性:是指词单元具有的感情色彩,包括正向、负向等。
文本关联度权重矩阵:基于样本句子与样本问题之间的关联度产生的权重矩阵。
语料文本:由多个样本句子组合而成的自然语言文本。
待回答问题:用户输入至交互界面中的亟待解决的问题句子。
词向量矩阵:对输入的句子的词单元进行向量化处理形成的矩阵。
词重要度矩阵:对词单元的词重要度进行向量化处理形成的矩阵。
关键词矩阵:词单元的词向量矩阵及其词重要度矩阵融合而成的矩阵。
预设句子集:预先根据句子主题类别的不同划分而成的句子集。
目标句子集:与待回答问题主题相符的预设句子集。
目标句子:目标句子集中与待回答问题之间的关联度大于预设阈值的句子。
语义分析单元:即语义依存分析工具,用于构造答案句子主成分。
实体识别单元:即NER命名实体识别模块,用于识别并提取出时间标签。
时间标签:可以表示时间的字、词或短语。
净化单元:通过净化词典过滤答案句子中负面词语的执行单元。
净化词典:是一种反面语料库,包括各种反动暴力、色情淫秽、人身攻击、低俗偏激等方面的反面词语语料。
在本申请中,提供了一种文本关联度模型的训练方法及装置、问答方法及装置、计算设备及计算机可读存储介质,在下面的实施例中逐一进行详细说明。
图1是示出了根据本说明书一实施例的计算设备100的结构框图。该计算设备100的部件包括但不限于存储器110和处理器120。处理器120与存储器110通过总线130相连接,数据库150用于保存数据。
计算设备100还包括接入设备140,接入设备140使得计算设备100能够经由一个或多个网络160通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备140可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC))中的一个或多个,诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口,等等。
在本说明书的一个实施例中,计算设备100的上述部件以及图1中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图1所示的计算设备结构框图仅仅是出于示例的目的,而不是对本说明书范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备100可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的静止计算设备。计算设备100还可以是移动式或静止式的服务器。
其中,处理器120可以执行图2所示方法中的步骤。图2是示出了根据本申请一实施例的文本关联度模型的训练方法的示意性流程图,包括步骤S210至步骤S240。
S210、获取样本句子集、样本问题以及所述样本句子集中的样本句子与所述样本问题之间的关联度矩阵标签。
具体地,在获取样本句子集之前,先获取语料文本,通过主题分类算法对所述语料文本进行分类,获得具有类别标签的多个样本句子集。
其中,语料文本是由多个句子组合而成的自然语言文本,可以是一篇文章、多篇文章等各种篇幅长度的文本,也可以是中文文本、英文文本等各种语言类型的文本,本申请对此不做限制。主题分类算法是用于确定语料文本中的句子主题类别,并将属于相同主题类别的句子归为一个集合即样本句子集的算法,每一个样本句子集具有的类别标签可以表示该样本句子集中全部样本句子的主题类别。
假设获取100篇语料文本,此100篇语料文本中共包括10000个句子,通过任务启发式主题分类算法对上述100篇语料文本的10000个句子进行分类,获得具有类别标签的多个样本句子集,分类过程如下:
将上述100篇语料文本的10000个句子作为数据集D,D={(x1,y1),(x2,y2),...,(x10000,ym)},其中,xi是每一个句子的字向量集(n维向量表示),yi是类别标签向量集(降维到d维向量表示),yi∈{C1,C2,...,Ck},C表示类别标签。
首先,通过如下公式计算类内散度矩阵:
上述公式(1)中的Sw表示类内散度矩阵,μj(j=0,1)为第j类样本的均值向量,亦即μ0、μ1表示两个类别的中心点,T表示矩阵转置,X0表示数据集D中的句子集,X1表示数据集D中的类别标签集。
其次,通过如下公式计算类间散度矩阵:
Sb=(μ0-μ1)(μ0-μ1)T (2)
上述公式(2)中的Sb表示类间散度矩阵,μ0、μ1表示两个类别的中心点,T表示矩阵转置。
基于上述类内散度矩阵Sw和类间散度矩阵Sb计算得到散度矩阵S-1 wSb,并计算S- 1 wSb的最大的d个特征值和对应的d个特征向量(w1,w2,...wd),并将上述d个特征向量(w1,w2,...wd)进行拼接后得到投影矩阵WT。
基于上述投影矩阵WT将样本集中的句子样本特征xi,转化为新的样本zi=WTxi。
将上述样本zi分别带入每一个类别的高斯分布概率密度函数中,分别计算此样本特征属于每一个类别的概率,其中,最大概率值对应的类别即为此样本特征对应的词向量所属的类别。
得到输出样本句子集组合D′={(z1,y1),(z2,y2),...,(zm,ym)},其中,zi表示样本句子集,yi表示样本句子集的分类标签。
需要说明的是,上述获取语料文本、通过主题分类算法对语料文本进行分类的过程只需完成一次即可,之后的训练过程可以直接获取样本句子集、样本问题以及样本句子集中的样本句子与样本问题之间的关联度矩阵标签对文本关联度权重矩阵进行训练。
本实施例通过获取样本句子集、样本问题以及样本句子集中的样本句子与样本问题之间的关联度矩阵标签可以为文本关联度模型的训练做好准备。
S220、将所述样本句子和所述样本问题进行分词处理,获得至少一个样本句子词单元和至少一个样本问题词单元。
具体地,分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。在实际应用中,对每一个样本句子集中的全部样本句子进行分词处理后,获得多个样本句子词单元;对样本问题进行分词处理后,获得多个样本问题词单元。
在本实施例中,假设样本句子集包括z1-zm共m个样本句子集,每个样本句子集中包括p1-pi共i个样本句子,样本问题包括q1-qn共n个样本问题,以样本句子集z1中的样本句子p1以及样本问题q1为例,假设样本句子p1包括“北京是伟大祖国的首都,深受祖国各族人民的向往”,对上述样本句子p1进行分词处理,获得[北京、是、伟大、祖国、的、首都、深受、祖国、各族、人民、的、向往]共12个样本句子词单元;样本问题q1包括“中国的首都是哪座城市?”,对上述样本问题q1进行分词处理,获得[中国、的、首都、是、哪]共5个样本问题词单元。
本实施例通过对样本句子和样本问题进行分词处理,有助于提高文本关联度模型对样本句子、样本问题的语义理解能力,提升文本关联度模型的训练效果。
S230、分别确定所述样本句子词单元与所述样本问题词单元的词重要度,将所述样本句子词单元和所述样本句子词单元的词重要度、所述样本问题词单元和所述样本问题词单元的词重要度输入至文本关联度模型中进行处理,生成所述样本句子和所述样本问题之间的初始文本关联度权重矩阵。
具体地,所述步骤S230还可以包括步骤S231至步骤S235。
S231、分别确定所述样本句子词单元与所述样本问题词单元的词频、词性和情感极性。
其中,词频是指词单元在句子中出现的次数,以样本问题“什么是分词?”为例,词单元“分词”在该样本问题中出现了一次,那么词单元“分词”的词频即为1。
词性是以语法特征(包括句法功能和形态变化)为主要依据、兼顾词汇意义对词单元进行划分的结果,以样本问题“什么是分词”为例,词单元“什么”的词性为名词,词单元“是”和词单元“分词”的词性均为动词。
情感极性是指词单元具有的感情色彩,包括正向、负向、中性等,其中正向词是指褒义积极词、负向词是指贬义消极词。以“粮食都被浪费了”为例,其中词单元“浪费”的情感极性为负向。
以样本句子p1“北京是伟大祖国的首都,深受祖国各族人民的向往”中的词单元“伟大”为例,该词单元的词频为1,词性为形容词,情感极性为正向词。
本实施例通过确定词单元的词频、词性和情感极性,可以促进文本关联度模型从不提供方面加深对包含该词单元的句子的理解层次和深度,进而提高文本关联度模型的语义理解能力。
S232、基于所述样本句子词单元的词频、词性和情感极性分别确定所述样本句子词单元的词重要度,基于所述样本问题词单元的词频、词性和情感极性确定所述样本问题词单元的词重要度。
具体地,可以根据词频、词性和情感极性三个特征权重系数分量根据对应的计分规则单独计算分值,并将三个特征权重系数分量的分值之和作为词重要度的总分值,由此可得每个词单元对应的词重要度值计算公式如下所示:
V=Ws+Wq+We (3)
其中,V表示词重要度,以W表示权重系数,Ws表示词性分值,Wq表示词频分值,We表示情感极性分值。
需要说明的是,词单元的词频可以直接作为其词频权重系数分量的分值,比如词单元a在样本问题中的词频为3,那么词单元a的词频权重系数分量的分值为3分。在本实施例中副词不统计词频,比如“的”,不统计其词频,因而“的”这样的成分词无词频得分,遇到重复出现的此类副词,跳过即可。
词性权重系数分量的分值和情感极性权重系数分量的分值可以视具体情况而定,比如,名词的词性分值为1分、动词、形容词的词性分值为0.5分、副词的词性分值为0分、正向词即褒义积极词的情感极性分值为1分、负向词即贬义消极词的情感极性分值为-1分、中性词的情感极性分值为0分等,本申请对此不做限制。
在本实施例中,以样本句子集z1中的样本句子p1以及样本问题q1为例,样本句子p1的词频分值、词性分值、情感分值和词重要度如表1所示。
表1
样本问题q1的词频分值、词性分值、情感分值和词重要度如表2所示。
表2
本实施例基于词单元的词频、词性和情感极性确定该词单元的词重要度,有助于模型快速准确的了解词单元在句子中所起的作用,进而从细粒度的层面提高模型对于句子的理解能力。
S233、将所述样本句子词单元和所述样本句子词单元的词重要度、所述样本问题词单元和所述样本问题词单元的词重要度输入至文本关联度模型中。
在本实施例中,文本关联度模型优选为双向LSTM模型。
在实际应用中,可以将样本句子词单元转化为样本句子词单元对应的词向量矩阵,将样本句子词单元的词重要度转化为样本句子词单元对应的词重要度矩阵,将上述样本句子词单元对应的词向量矩阵和词重要度矩阵进行融合,获得样本句子词单元矩阵;将样本问题词单元转化为样本问题词单元对应的词向量矩阵,将样本问题词单元的词重要度转化为样本问题词单元对应的词重要度矩阵,将上述样本问题词单元对应的词向量矩阵和词重要度矩阵进行融合,获得样本问题词单元矩阵,并将上述样本句子词单元矩阵和样本问题词单元矩阵输入至双向LSTM模型中进行处理,其中,融合的方式可以为拼接等,本申请对此不做限制。
以样本句子集z1中的样本句子p1以及样本问题q1为例,首先基于样本句子词单元获得每一个样本句子词单元对应的词向量矩阵pa1-pa12,基于样本句子词单元的词重要度获得每一个样本句子词单元的词重要度矩阵pb1-pb12,基于样本问题词单元获得每一个样本问题词单元对应的词向量矩阵qa1-qa5,基于样本问题词单元的词重要度获得每一个样本问题词单元的词重要度矩阵qb1-qb5。其他情况可以此类推,不再赘述。
将样本句子p1中每一个样本句子词单元对应的词向量矩阵pa1-pa12与词重要度矩阵pb1-pb12进行融合,获得样本句子词单元矩阵pab1-pab12,将样本问题q1中每一个样本问题词单元对应的词向量矩阵qa1-qa5与词重要度矩阵qb1-qb5进行融合,获得样本问题词单元矩阵qab1-qab5,并将上述样本句子词单元矩阵pab1-pab12和样本问题词单元矩阵qab1-qab5输入至双向LSTM模型中。
如图3所示,以样本问题中的样本问题词单元[中国、的、首都、是、哪]为例,其中,W1表示词单元“中国”,W2表示词单元“的”,W3表示词单元“首都”,W4表示词单元“是”,W5表示词单元“哪”。
将上述样本问题的样本问题词单元矩阵[qab1、qab2、qab3、qab4、qab5]正向输入至双向LSTM模型中后,得到正向输出矩阵[Zqab1、Zqab2、Zqab3、Zqab4、Zqab5],将上述样本问题的样本问题词单元矩阵[qab1、qab2、qab3、qab4、qab5]反向输入至双向LSTM模型中后,得到反向输出矩阵[Fqab5、Fqab4、Fqab3、Fqab2、Fqab1],将每个样本问题词单元的正向输出矩阵和反向输出矩阵进行拼接,即得到该样本问题词单元最终的模型输出矩阵即样本问题词单元矩阵,以样本问题词单元“中国”为例,其输入至双向LSTM模型后,最终的模型输出矩阵即为[Zqab1、Fqab5]。其他情况可依次类推,不再赘述。
本实施例通过对词单元的词向量矩阵和词重要度矩阵进行融合,获得词单元矩阵,再将词单元矩阵输入至文本关联度模型中进行处理,有助于文本关联度模型同时关注到词单元自身的特征以及词单元融入在句子中的特征,拓展文本关联度模型的关注方面,此外,文本关联度模型选择双向LSTM模型,有助于提高句子理解的深度。
S234、基于所述样本句子词单元和所述样本句子词单元的词重要度、所述样本问题词单元和所述样本问题词单元的词重要度确定所述样本句子词单元与所述样本问题词单元之间的关联度。
具体地,可以基于样本问题词单元矩阵与样本句子词单元矩阵计算每一个样本问题词单元与每一个样本句子词单元之间的余弦相似度,并将上述样本句子词单元与样本问题词单元之间的余弦相似度作为二者之间的关联度,并基于关联度生成每个样本句子与样本问题之间的初始文本关联度矩阵。
其中,余弦相似度的计算公式如下所示:
cos(θ)为余弦相似度的数值,xi表示样本句子词单元的模型输出矩阵,yi表示样本问题词单元的模型输出矩阵。
本实施例通过计算样本问题词单元与样本句子词单元之间的余弦相似度,有助于快速准确的确定样本句子与样本问题之间的关联性,进而快速确定样本句子集中与样本问题之间关联性最大的样本句子,有助于样本问题的准确回答。
S235、基于所述样本句子词单元与所述样本问题词单元之间的关联度,生成所述样本句子与所述样本问题之间的初始文本关联度权重矩阵。
在本实施例中,基于样本句子词单元与样本问题词单元之间的关联度,生成样本句子与样本问题之间的关联度权重矩阵,可以有效提高对样本句子的剖析度,有助于准确的表征样本句子与样本问题之间的关联性。
S240、基于所述初始文本关联度权重矩阵与所述关联度矩阵标签对所述文本关联度模型进行迭代训练,直至达到训练停止条件,获得所述文本关联度模型输出的文本关联度权重矩阵。
具体地,可以基于所述初始文本关联度权重矩阵与所述关联度矩阵标签确定损失值,并判断所述损失值是否大于预设阈值。
若是,则基于所述损失值对所述文本关联度模型进行调整。
若否,则结束训练并输出文本关联度权重矩阵。
在本实施例中,以样本句子集z1中的样本句子p1以及样本问题q1为例,假设样本句子p1与样本问题q1之间的关联度权重矩阵为Z1,样本句子p1以及样本问题q1之间的关联度权重矩阵标签为Z0,计算Z1与Z0之间的损失值,并在损失值大于预设阈值的情况下,反向调整双向LSTM模型的参数,并对双向LSTM模型进行更新,在损失值小于或等于预设阈值的情况下,结束训练并输出最终的文本关联度权重矩阵。
具体地,可以采用交叉熵损失函数计算损失值,交叉熵是表示两个概率分布p、q的差异,其中p表示真实分布即关联度权重矩阵标签为Z0,q表示非真实分布即关联度权重矩阵为Z1,那么H(p,q)就称为交叉熵,其计算公式如下所示:
本实施例提供的文本关联度模型的训练方法,通过文本关联度模型对样本句子词单元及其词重要度、样本问题词单元及其词重要度进行处理,生成样本句子和样本问题之间的初始文本关联度权重矩阵,进而获得样本句子与样本问题之间的语义关联度;再基于初始文本关联度权重矩阵和关联度矩阵标签对文本关联度模型进行迭代训练,初始文本关联度矩阵的权重系数随着训练过程的不断推进而逐步更新,不断在细粒度的层面上学习样本问题与样本句子的语义关联,从而实现初始文本关联度权重矩阵的最优化,即获得用于识别提问意图、提高智能问答准确性的文本关联度权重矩阵,不仅可以为问答系统智能度的提高提供助力,还可以加快训练过程中参数的收敛,提高训练速度。
如图4所示,本实施例公开了一种问答方法,包括步骤S410至步骤S430。
S410、获取待回答问题,对所述待回答问题进行分词处理,获得多个问题词单元。
具体地,待回答问题是用户输入至交互界面中的亟待解决的问题,可以是任何领域的问题,比如可以是生活领域的“废旧电池应如何处理”、文学领域的“朱自清的代表作是什么?”、计算机领域的“什么是自然语言处理”等等,本申请对此不做限制。
本实施例通过对待回答问题进行分词处理,有助于提高问答系统对于待回答问题的语义理解能力,提高问题回答的准确性。
S420、确定所述问题词单元中的关键词单元以及所述关键词单元的词重要度,并基于所述关键词单元与所述关键词单元的词重要度生成关键词矩阵。
具体地,可以确定每一个所述问题词单元的词频、词性和/或情感极性,并基于所述问题词单元的词频、词性和/或情感极性确定关键词单元。换而言之,可以基于问题词单元的词频、词性、情感极性中的任意一种或几种确定关键词单元。
例如,假设样本问题为“废旧电池应如何处理”,包括样本词单元[废旧、电池、应、如何、处理],其中每一个样本词单元的词频均为1,情感极性均为中性词,在此种情况下,则可以依据样本词单元的词性确定关键词单元,其中,词单元“电池”的词性为名词,词单元“处理”的词性为动词,那么确定该样本问题中的关键词单元为“电池”和“处理”。
具体地,可以确定每一个所述关键词单元的词频、词性和情感极性;基于所述关键词单元的词频、词性和情感极性确定所述关键词单元的词重要度。其中,词重要度的计算公式如公式(3)所示。
例如,关键词单元“电池”的词性为名词,则词性分值为1分,情感极性为中性词,则情感极性分值为0分,词频为1,则词频分值为1分,那么关键词单元“电池”的词重要度为2;关键词单元“处理”的词性为动词,则词性分值为0.5分,情感极性为中性词,则情感极性分值为0分,词频为1,则词频分值为1分,那么关键词单元“处理”的词重要度为1.5。
具体地,基于所述关键词单元获得词向量矩阵;基于所述关键词单元的词重要度获得词重要度矩阵;将所述词向量矩阵和所述词重要度矩阵进行融合处理,生成关键词矩阵。
优选地,将词向量矩阵和词重要度矩阵进行拼接,生成关键词矩阵。
本实施例通过将每一个关键词单元的词向量矩阵和词重要度矩阵进行融合处理,生成关键词矩阵,有助于提高问答系统对待回答问题的理解程度,进而提高问题回答的准确性。
S430、基于所述关键词矩阵与所述文本关联度权重矩阵确定目标句子,并基于所述目标句子生成所述待回答问题的答案。
具体地,可以确定所述关键词矩阵与预设句子集的类别标签之间的类别关联度,并基于所述类别关联度确定目标句子集;基于关键词矩阵与目标句子集中每一个句子的文本关联度权重矩阵确定所述待回答问题与所述目标句子集中每一个句子之间的内容关联度,并基于所述内容关联度确定至少一个目标句子。
例如,假设共有10个预设句子集,上述10个预设句子集的类别标签分别为a1、a2……a10,分别计算关键词单元“电池”与关键词单元“处理”之间的类别关联度,得到关键词单元“电池”与类别标签a3的关联度最高,关键词单元“处理”与类别标签a7的关联度最高,那么将类别标签a3对应的预设句子集a3以及类别标签a7对应的预设句子集a7作为目标句子集。
假设预设句子集a3中包括b1-b80在内的80个句子,计算关键词单元“电池”与上述80个句子之间的关联度,得到关键词单元“电池”与句子b80之间的关联度最高,那么句子b80即为目标句子;假设预设句子集a7中包括c1-c120在内的120个句子,计算关键词单元“处理”与上述120个句子之间的关联度,得到关键词单元“处理”与句子c66之间的关联度最高,那么句子c66即为目标句子。
具体地,可以通过语义分析单元提取所述目标句子中的目标词单元;基于所述目标词单元生成所述待回答问题的答案。
其中,语义分析单元是一种语义依存分析工具,语义分析单元通过对目标句子进行语义依存分析,进而提取出目标句子中与待回答问题具有紧密关联的主干词单元,将主干词单元重新排列组合后,即生成待回答问题的答案。
在实际应用中,还可以通过实体识别单元识别所述目标句子中的时间标签,并基于所述时间标签对所述待回答问题的答案进行更新。
其中,实体识别单元是一种NER命名实体识别模块,句子标签可以是任何能够表示时间的词语、短语,比如去年、今年、明年、昨天、今天、明天、庚子年、2020年、周五、三月等等,本申请对此不做限制。
例如,假设目标句子为“2022年奥林匹克冬季奥运会将在中国北京举办”,答案句子为“后年北京将举办冬奥会”,通过实体识别单元识别到目标句子中的时间标签“2022年”后,对答案句子中的时间短语“后年”进行更新,更新后的待回答问题的答案即为“2022年北京将举办冬奥会。”
通过实体识别单元对待回答问题的答案进行更新,在答案中涉及到时间的情况下,可以有助于明确待回答问题的答案中的时间线,确保时间线清晰不混乱,在答案中不涉及到时间的情况下,便无需通过实体识别单元对待回答问题的答案进行更新。
在实际应用中,还可以通过净化单元过滤所述答案中的负面词单元,并对所述答案进行更新。
具体地,负面词单元包括净化词典中的反动暴力、色情淫秽、人身攻击、低俗偏激等类型的词语。
在实际应用中,可以计算待回答问题答案中的词单元与净化单元中预设负面词单元之间的余弦相似度,并将相似度大于预设阈值的词单元删除,对待回答问题的答案进行更新。
其中,余弦相似度的计算公式如下所示:
cos(θ)为余弦相似值,xi表示待回答问题中的词单元,yi表示净化词典中的负面词单元。
例如,假设答案句子包括“这部电影真垃圾,评分太低”,计算上述答案句子中每一个词单元与净化单元的净化词典中预设负面词单元之间的余弦相似度,得到词单元“垃圾”与预设负面词单元之间的余弦相似度大于预设阈值,则将词单元“垃圾”从答案句子中删除,并对答案句子的结构进行相应调整、更新后得到待回答问题的答案为“这部电影评分太低”。
下面结合具体的例子对本实施例进行进一步说明。
假设待回答问题为“我们村有多位老人无人赡养,该怎么办?”将上述待回答问题进行分词处理,获得问题词单元[我们、村、有、多、位、老人、无、人、赡养、该、怎么办]。
基于上述每一个问题词单元的词性、情感极性确定待回答问题中的关键词单元为[老人、赡养]。
确定上述每一个关键词单元的词频、词性和情感极性,基于上述关键词单元的词频、词性和情感极性确定所述关键词单元的词重要度,如表3所示。
表3
基于关键词单元“老人”获得词向量矩阵A1,基于关键词单元“老人”的词重要度,获得词重要度矩阵B1,基于关键词单元“赡养”获得词向量矩阵A2,基于关键词单元“赡养”的词重要度,获得词重要度矩阵B2。
将关键词单元“老人”的词向量矩阵A1和词重要度矩阵B1进行拼接,得到关键词矩阵AB1,将关键词单元“赡养”的词向量矩阵A2和词重要度矩阵B2进行拼接,得到关键词矩阵AB2。
假设共包括3个预设句子集,3个预设句子集的类别标签分别为“社会保险”、“医疗服务”、“福利救助”。
基于关键词矩阵AB1计算关键词单元“老人”与3个预设句子集的类别标签之间的类别关联度,得到关键词单元“老人”与类别标签“社会保险”、“医疗服务”、“福利救助”之间的类别关联度分别为0.55、0.61、0.88;基于关键词矩阵AB2计算关键词单元“赡养”与3个预设句子集的类别标签之间的类别关联度,得到关键词单元“赡养”与类别标签“社会保险”、“医疗服务”、“福利救助”之间的类别关联度分别为0.30、0.17、0.95。
基于上述类别关联度,确定类别标签为“福利救助”的预设句子集为目标句子集。
假设“福利救助”目标句子集包括d1-d10共10个句子。分别计算关键词矩阵AB1、AB2与句子d1-d10之间的内容关联度,得到句子d3的内容关联度最高,则确定句子d3“我国《老年人权益保障法》第二十三条规定:“农村老年人,无劳动能力或无生活来源、无赡养人和扶养人的,或者其赡养人和扶养人确无赡养能力或者扶养能力的,由农村集体经济组织负担保吃、保穿、保住、保医、保葬的五保供养,乡、民族乡、镇人民政府负责组织实施”为目标句子。
通过语义分析单元提取上述目标句子中的主干词汇生成待回答问题的答案“无人赡养的农村老年人,由农村集体经济组织负担五保供养,乡、民族乡、镇人民政府负责组织实施”。
由于上述待回答问题的答案中未涉及到时间,故无需通过实体识别单元更新答案。
通过净化单元计算上述答案句子中每一个词单元与预设负面词单元之间的余弦相似度,并无词单元与预设负面词单元之间的余弦相似度大于预设阈值,故无需删除任何词单元,所以,待回答问题“我们村有多位老人无人赡养,该怎么办?”的答案为“无人赡养的农村老年人,由农村集体经济组织负担五保供养,乡、民族乡、镇人民政府负责组织实施”。
本实施例提供的问答方法及装置,通过确定待回答问题中的关键词单元及其重要度,获得关键词矩阵,将其与文本关联度权重矩阵一同处理确定目标句子,可以更好的捕捉回答问题与句子之间的语义关联,选取语义关联度高的句子作为目标句子后,再基于目标句子生成待回答问题的答案,可以有效提高问题回答的智能度以及生成答案的准确度和流畅度。
此外,本实施例提供的问答方法,可以通过实体识别单元提取目标句子中的时间标签,对答案进行优化,以提高答案与现实时间线之间的匹配度,进而提高答案的准确度;还可以通过净化单元过滤答案中的负面词单元,以实现答案中冗余信息的去除,敏感词、争议词等负面词的过滤。
本实施例所述的问答方法,还可以灵活的应用于政务问答、历史问答、常识问答等各种领域。以政务问答为例,本实施例所述的问答方法,能够全面地捕捉用户提问问题与政务文档之间的语义关联,精准地实现政务文本中的时间线匹配,以及敏感词、争议短语等的过滤,保证答案句子生成的准确度和流畅度,用准确、简洁的自然语言回答用户提出的政务领域的问题,满足人们对快速、准确地获取政务信息的需求。
如图5所示,本实施例提供一种文本关联度模型的训练装置,包括:
样本获取模块510,被配置为获取样本句子集、样本问题以及所述样本句子集中的样本句子与所述样本问题之间的关联度矩阵标签;
分词处理模块520,被配置为将所述样本句子和所述样本问题进行分词处理,获得至少一个样本句子词单元和至少一个样本问题词单元;
矩阵生成模块530,被配置为分别确定所述样本句子词单元与所述样本问题词单元的词重要度,将所述样本句子词单元和所述样本句子词单元的词重要度、所述样本问题词单元和所述样本问题词单元的词重要度输入至文本关联度模型中进行处理,生成所述样本句子和所述样本问题之间的初始文本关联度权重矩阵;
迭代训练模块540,被配置为基于所述初始文本关联度权重矩阵与所述关联度矩阵标签对所述文本关联度模型进行迭代训练,直至达到训练停止条件,获得所述文本关联度模型输出的文本关联度权重矩阵。
可选地,本实施例所述的文本关联度模型的训练装置,还包括:
文本分类模块,被配置为获取语料文本,通过主题分类算法对所述语料文本进行分类,获得具有类别标签的多个样本句子集。
可选地,所述矩阵生成模块530,进一步被配置为:
分别确定所述样本句子词单元与所述样本问题词单元的词频、词性和情感极性;
基于所述样本句子词单元的词频、词性和情感极性分别确定所述样本句子词单元的词重要度;
基于所述样本问题词单元的词频、词性和情感极性确定所述样本问题词单元的词重要度。
可选地,所述矩阵生成模块530,进一步被配置为:
将所述样本句子词单元和所述样本句子词单元的词重要度、所述样本问题词单元和所述样本问题词单元的词重要度输入至文本关联度模型中;
基于所述样本句子词单元和所述样本句子词单元的词重要度、所述样本问题词单元和所述样本问题词单元的词重要度确定所述样本句子词单元与所述样本问题词单元之间的关联度;
基于所述样本句子词单元与所述样本问题词单元之间的关联度,生成所述样本句子与所述样本问题之间的初始文本关联度权重矩阵。
可选地,所述迭代训练模块540,进一步被配置为:
基于所述初始文本关联度权重矩阵与所述关联度矩阵标签确定损失值,并判断所述损失值是否大于预设阈值;
若是,则基于所述损失值对所述文本关联度模型进行调整;
若否,则结束训练并输出文本关联度权重矩阵。
本实施例提供的文本关联度模型的训练装置,通过文本关联度模型对样本句子词单元及其词重要度、样本问题词单元及其词重要度进行处理,生成样本句子和样本问题之间的初始文本关联度权重矩阵,进而获得样本句子与样本问题之间的语义关联度;再基于初始文本关联度权重矩阵和关联度矩阵标签对文本关联度模型进行迭代训练,初始文本关联度矩阵的权重系数随着训练过程的不断推进而逐步更新,不断在细粒度的层面上学习样本问题与样本句子的语义关联,从而实现初始文本关联度权重矩阵的最优化,即获得用于识别提问意图、提高智能问答准确性的文本关联度权重矩阵,不仅可以为问答系统智能度的提高提供助力,还可以加快训练过程中参数的收敛,提高训练速度。
如图6所示,本实施例提供了一种问答装置,包括:
问题分词模块610,被配置为获取待回答问题,对所述待回答问题进行分词处理,获得多个问题词单元;
关键词矩阵生成模块620,被配置为确定所述问题词单元中的关键词单元以及所述关键词单元的词重要度,并基于所述关键词单元与所述关键词单元的词重要度生成关键词矩阵;
答案生成模块630,被配置为基于所述关键词矩阵与所述文本关联度权重矩阵确定目标句子,并基于所述目标句子生成所述待回答问题的答案。
可选地,所述关键词矩阵生成模块620,进一步被配置为:
确定每一个所述问题词单元的词频、词性和/或情感极性,并基于所述问题词单元的词频、词性和/或情感极性确定关键词单元。
可选地,所述关键词矩阵生成模块620,进一步被配置为:
确定每一个所述关键词单元的词频、词性和情感极性;
基于所述关键词单元的词频、词性和情感极性确定所述关键词单元的词重要度。
可选地,所述关键词矩阵生成模块620,进一步被配置为:
基于所述关键词单元获得词向量矩阵;
基于所述关键词单元的词重要度获得词重要度矩阵;
将所述词向量矩阵和所述词重要度矩阵进行融合处理,生成关键词矩阵。
可选地,所述答案生成模块630,进一步被配置为:
确定所述关键词矩阵与预设句子集的类别标签之间的类别关联度,并基于所述类别关联度确定目标句子集;
基于关键词矩阵与目标句子集中每一个句子的文本关联度权重矩阵确定所述待回答问题与所述目标句子集中每一个句子之间的内容关联度,并基于所述内容关联度确定至少一个目标句子。
可选地,所述答案生成模块630,进一步被配置为:
通过语义分析单元提取所述目标句子中的目标词单元;
基于所述目标词单元生成所述待回答问题的答案。
可选地,本实施例所述的问答装置,还包括:
识别更新模块,被配置为通过实体识别单元识别所述目标句子中的时间标签,并基于所述时间标签对所述待回答问题的答案进行更新。
可选地,本实施例所述的问答装置,还包括:
净化更新模块,被配置为通过净化单元过滤所述答案中的负面词单元,并对所述答案进行更新。
本实施例提供的问答装置,通过确定待回答问题中的关键词单元及其重要度,获得关键词矩阵,将其与文本关联度权重矩阵一同处理确定目标句子,可以更好的捕捉回答问题与句子之间的语义关联,选取语义关联度高的句子作为目标句子后,再基于目标句子生成待回答问题的答案,可以有效提高问题回答的智能度以及生成答案的准确度和流畅度。
此外,本实施例提供的问答装置,可以通过实体识别单元提取目标句子中的时间标签,对答案进行优化,以提高答案与现实时间线之间的匹配度,进而提高答案的准确度;还可以通过净化单元过滤答案中的负面词单元,以实现答案中冗余信息的去除,敏感词、争议词等负面词的过滤。
本实施例提供的问答装置,还可以灵活的应用于政务问答、历史问答、常识问答等各种领域。以政务问答为例,本实施例所述的问答方法,能够全面地捕捉用户提问问题与政务文档之间的语义关联,精准地实现政务文本中的时间线匹配,以及敏感词、争议短语等的过滤,保证答案句子生成的准确度和流畅度,用准确、简洁的自然语言回答用户提出的政务领域的问题,满足人们对快速、准确地获取政务信息的需求。
本申请一实施例还提供一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述指令时实现以下步骤:
获取样本句子集、样本问题以及所述样本句子集中的样本句子与所述样本问题之间的关联度矩阵标签;
将所述样本句子和所述样本问题进行分词处理,获得至少一个样本句子词单元和至少一个样本问题词单元;
分别确定所述样本句子词单元与所述样本问题词单元的词重要度,将所述样本句子词单元和所述样本句子词单元的词重要度、所述样本问题词单元和所述样本问题词单元的词重要度输入至文本关联度模型中进行处理,生成所述样本句子和所述样本问题之间的初始文本关联度权重矩阵;
基于所述初始文本关联度权重矩阵与所述关联度矩阵标签对所述文本关联度模型进行迭代训练,直至达到训练停止条件,并获得所述文本关联度模型输出的文本关联度权重矩阵。
本申请一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现如前所述文本关联度模型的训练方法或问答方法的步骤。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的文本关联度模型的训练方法或问答方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述文本关联度模型的训练方法或问答方法的技术方案的描述。
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本申请的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。
Claims (17)
1.一种文本关联度模型的训练方法,其特征在于,包括:
获取样本句子集、样本问题以及所述样本句子集中的样本句子与所述样本问题之间的关联度矩阵标签;
将所述样本句子和所述样本问题进行分词处理,获得至少一个样本句子词单元和至少一个样本问题词单元;
分别确定所述样本句子词单元与所述样本问题词单元的词重要度,将所述样本句子词单元和所述样本句子词单元的词重要度、所述样本问题词单元和所述样本问题词单元的词重要度输入至文本关联度模型中进行处理,生成所述样本句子和所述样本问题之间的初始文本关联度权重矩阵;
基于所述初始文本关联度权重矩阵与所述关联度矩阵标签对所述文本关联度模型进行迭代训练,直至达到训练停止条件,获得所述文本关联度模型输出的文本关联度权重矩阵。
2.根据权利要求1所述的文本关联度模型的训练方法,其特征在于,在所述获取样本句子集之前,还包括:
获取语料文本,通过主题分类算法对所述语料文本进行分类,获得具有类别标签的多个样本句子集。
3.根据权利要求1所述的文本关联度模型的训练方法,其特征在于,所述分别确定所述样本句子词单元与所述样本问题词单元的词重要度,包括:
分别确定所述样本句子词单元与所述样本问题词单元的词频、词性和情感极性;
基于所述样本句子词单元的词频、词性和情感极性确定所述样本句子词单元的词重要度;
基于所述样本问题词单元的词频、词性和情感极性确定所述样本问题词单元的词重要度。
4.根据权利要求1所述的文本关联度模型的训练方法,其特征在于,所述将所述样本句子词单元和所述样本句子词单元的词重要度、所述样本问题词单元和所述样本问题词单元的词重要度输入至文本关联度模型中进行处理,生成所述样本句子和所述样本问题之间的初始文本关联度权重矩阵,包括:
将所述样本句子词单元和所述样本句子词单元的词重要度、所述样本问题词单元和所述样本问题词单元的词重要度输入至文本关联度模型中;
基于所述样本句子词单元和所述样本句子词单元的词重要度、所述样本问题词单元和所述样本问题词单元的词重要度确定所述样本句子词单元与所述样本问题词单元之间的关联度;
基于所述样本句子词单元与所述样本问题词单元之间的关联度,生成所述样本句子与所述样本问题之间的初始文本关联度权重矩阵。
5.根据权利要求1所述的文本关联度模型的训练方法,其特征在于,所述基于所述初始文本关联度权重矩阵与所述关联度矩阵标签对所述文本关联度模型进行迭代训练,包括:
基于所述初始文本关联度权重矩阵与所述关联度矩阵标签确定损失值,并判断所述损失值是否大于预设阈值;
若是,则基于所述损失值对所述文本关联度模型进行调整;
若否,则结束训练并输出文本关联度权重矩阵。
6.一种问答方法,其特征在于,包括:
获取待回答问题,对所述待回答问题进行分词处理,获得多个问题词单元;
确定所述问题词单元中的关键词单元以及所述关键词单元的词重要度,并基于所述关键词单元与所述关键词单元的词重要度生成关键词矩阵;
基于所述关键词矩阵与文本关联度权重矩阵确定目标句子,并基于所述目标句子生成所述待回答问题的答案,其中,所述文本关联度权重矩阵通过上述权利要求1-5任意一项所述方法确定。
7.根据权利要求6所述的问答方法,其特征在于,所述确定所述问题词单元中的关键词单元,包括:
确定每一个所述问题词单元的词频、词性和/或情感极性,并基于所述问题词单元的词频、词性和/或情感极性确定关键词单元。
8.根据权利要求6所述的问答方法,其特征在于,所述确定所述关键词单元的词重要度,包括:
确定每一个所述关键词单元的词频、词性和情感极性;
基于所述关键词单元的词频、词性和情感极性确定所述关键词单元的词重要度。
9.根据权利要求6所述的问答方法,其特征在于,所述基于所述关键词单元与所述关键词单元的词重要度生成关键词矩阵,包括:
基于所述关键词单元获得词向量矩阵;
基于所述关键词单元的词重要度获得词重要度矩阵;
将所述词向量矩阵和所述词重要度矩阵进行融合处理,生成关键词矩阵。
10.根据权利要求6所述的问答方法,其特征在于,所述基于所述关键词矩阵与文本关联度权重矩阵确定目标句子,包括:
确定所述关键词矩阵与预设句子集的类别标签之间的类别关联度,并基于所述类别关联度确定目标句子集;
基于关键词矩阵与目标句子集中每一个句子的文本关联度权重矩阵确定所述待回答问题与所述目标句子集中每一个句子之间的内容关联度,并基于所述内容关联度确定至少一个目标句子。
11.根据权利要求6所述的问答方法,其特征在于,所述基于所述目标句子生成所述待回答问题的答案,包括:
通过语义分析单元提取所述目标句子中的目标词单元;
基于所述目标词单元生成所述待回答问题的答案。
12.根据权利要求11所述的问答方法,其特征在于,还包括:
通过实体识别单元识别所述目标句子中的时间标签,并基于所述时间标签对所述待回答问题的答案进行更新。
13.根据权利要求11或12所述的问答方法,其特征在于,还包括:
通过净化单元过滤所述答案中的负面词单元,并对所述答案进行更新。
14.一种文本关联度模型的训练装置,其特征在于,包括:
样本获取模块,被配置为获取样本句子集、样本问题以及所述样本句子集中的样本句子与所述样本问题之间的关联度矩阵标签;
分词处理模块,被配置为将所述样本句子和所述样本问题进行分词处理,获得至少一个样本句子词单元和至少一个样本问题词单元;
矩阵生成模块,被配置为分别确定所述样本句子词单元与所述样本问题词单元的词重要度,将所述样本句子词单元和所述样本句子词单元的词重要度、所述样本问题词单元和所述样本问题词单元的词重要度输入至文本关联度模型中进行处理,生成所述样本句子和所述样本问题之间的初始文本关联度权重矩阵;
迭代训练模块,被配置为基于所述初始文本关联度权重矩阵与所述关联度矩阵标签对所述文本关联度模型进行迭代训练,直至达到训练停止条件,获得所述文本关联度模型输出的文本关联度权重矩阵。
15.一种问答装置,其特征在于,包括:
问题分词模块,被配置为获取待回答问题,对所述待回答问题进行分词处理,获得多个问题词单元;
关键词矩阵生成模块,被配置为确定所述问题词单元中的关键词单元以及所述关键词单元的词重要度,并基于所述关键词单元与所述关键词单元的词重要度生成关键词矩阵;
答案生成模块,被配置为基于所述关键词矩阵与文本关联度权重矩阵确定目标句子,并基于所述目标句子生成所述待回答问题的答案,其中,所述文本关联度权重矩阵通过上述权利要求1-5任意一项所述方法确定。
16.一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,其特征在于,所述处理器执行所述指令时实现权利要求1-5或者6-13任意一项所述方法的步骤。
17.一种计算机可读存储介质,其存储有计算机指令,其特征在于,该指令被处理器执行时实现权利要求1-5或者6-13任意一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010363564.7A CN113590768B (zh) | 2020-04-30 | 2020-04-30 | 一种文本关联度模型的训练方法及装置、问答方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010363564.7A CN113590768B (zh) | 2020-04-30 | 2020-04-30 | 一种文本关联度模型的训练方法及装置、问答方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113590768A CN113590768A (zh) | 2021-11-02 |
CN113590768B true CN113590768B (zh) | 2023-10-27 |
Family
ID=78237222
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010363564.7A Active CN113590768B (zh) | 2020-04-30 | 2020-04-30 | 一种文本关联度模型的训练方法及装置、问答方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113590768B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114818727A (zh) * | 2022-04-19 | 2022-07-29 | 北京金山数字娱乐科技有限公司 | 关键句抽取方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017228272A (ja) * | 2016-06-17 | 2017-12-28 | パナソニックIpマネジメント株式会社 | 意味生成方法、意味生成装置及びプログラム |
CN110032632A (zh) * | 2019-04-04 | 2019-07-19 | 平安科技(深圳)有限公司 | 基于文本相似度的智能客服问答方法、装置及存储介质 |
WO2019214145A1 (zh) * | 2018-05-10 | 2019-11-14 | 平安科技(深圳)有限公司 | 文本情绪分析方法、装置及存储介质 |
CN110781663A (zh) * | 2019-10-28 | 2020-02-11 | 北京金山数字娱乐科技有限公司 | 文本分析模型的训练方法及装置、文本分析方法及装置 |
-
2020
- 2020-04-30 CN CN202010363564.7A patent/CN113590768B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017228272A (ja) * | 2016-06-17 | 2017-12-28 | パナソニックIpマネジメント株式会社 | 意味生成方法、意味生成装置及びプログラム |
WO2019214145A1 (zh) * | 2018-05-10 | 2019-11-14 | 平安科技(深圳)有限公司 | 文本情绪分析方法、装置及存储介质 |
CN110032632A (zh) * | 2019-04-04 | 2019-07-19 | 平安科技(深圳)有限公司 | 基于文本相似度的智能客服问答方法、装置及存储介质 |
CN110781663A (zh) * | 2019-10-28 | 2020-02-11 | 北京金山数字娱乐科技有限公司 | 文本分析模型的训练方法及装置、文本分析方法及装置 |
Non-Patent Citations (1)
Title |
---|
汉语问答系统答案提取方法研究;余正涛;樊孝忠;宋丽哲;高盛祥;;计算机工程(03);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113590768A (zh) | 2021-11-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108287822B (zh) | 一种中文相似问题生成系统与方法 | |
CN107798140B (zh) | 一种对话系统构建方法、语义受控应答方法及装置 | |
CN109460457A (zh) | 文本语句相似度计算方法、智能政务辅助解答系统及其工作方法 | |
CN109960786A (zh) | 基于融合策略的中文词语相似度计算方法 | |
CN112800170A (zh) | 问题的匹配方法及装置、问题的回复方法及装置 | |
CN107315734B (zh) | 一种基于时间窗口和语义的变体词规范化的方法和系统 | |
CN114580382A (zh) | 文本纠错方法以及装置 | |
CN110347802B (zh) | 一种文本分析方法及装置 | |
CN113569011B (zh) | 文本匹配模型的训练方法、装置、设备及存储介质 | |
CN116561538A (zh) | 问答评分方法、问答评分装置、电子设备及存储介质 | |
CN112434164B (zh) | 一种兼顾话题发现和情感分析的网络舆情分析方法及系统 | |
Chang et al. | A METHOD OF FINE-GRAINED SHORT TEXT SENTIMENT ANALYSIS BASED ON MACHINE LEARNING. | |
CN114756675A (zh) | 文本分类方法、相关设备及可读存储介质 | |
CN114840685A (zh) | 一种应急预案知识图谱构建方法 | |
CN112528653A (zh) | 短文本实体识别方法和系统 | |
Samih et al. | Enhanced sentiment analysis based on improved word embeddings and XGboost. | |
Zhen et al. | The research of convolutional neural network based on integrated classification in question classification | |
CN114003706A (zh) | 关键词组合生成模型训练方法及装置 | |
CN118035405A (zh) | 一种基于大模型的知识库问答构建方法及装置 | |
CN113590768B (zh) | 一种文本关联度模型的训练方法及装置、问答方法及装置 | |
CN111414755A (zh) | 一种基于细粒度情感字典的网络情绪分析方法 | |
Lichouri et al. | Combining topic-based model and text categorisation approach for utterance understanding in human-machine dialogue | |
CN116108181A (zh) | 客户信息的处理方法、装置及电子设备 | |
Tayal et al. | DARNN: Discourse Analysis for Natural languages using RNN and LSTM. | |
CN112507071B (zh) | 基于新型情感词典的网络平台短文本混合情感分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |