CN111680264A - 一种多文档阅读理解方法 - Google Patents

一种多文档阅读理解方法 Download PDF

Info

Publication number
CN111680264A
CN111680264A CN202010311182.XA CN202010311182A CN111680264A CN 111680264 A CN111680264 A CN 111680264A CN 202010311182 A CN202010311182 A CN 202010311182A CN 111680264 A CN111680264 A CN 111680264A
Authority
CN
China
Prior art keywords
vector
query text
document
documents
reading
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010311182.XA
Other languages
English (en)
Other versions
CN111680264B (zh
Inventor
彭德光
孙健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing Megalight Technology Co ltd
Original Assignee
Chongqing Megalight Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing Megalight Technology Co ltd filed Critical Chongqing Megalight Technology Co ltd
Priority to CN202010311182.XA priority Critical patent/CN111680264B/zh
Publication of CN111680264A publication Critical patent/CN111680264A/zh
Application granted granted Critical
Publication of CN111680264B publication Critical patent/CN111680264B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Mathematical Analysis (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biomedical Technology (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Evolutionary Biology (AREA)
  • Computational Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Computer Interaction (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Algebra (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出一种多文档阅读理解方法,包括:创建文档库;获取询问文本,根据所述询问文本从所述文档库中提取多个关联文档;根据所述询问文本与所述多个关联文档的相似度,获取每个所述关联文档中的对应所述询问文本的关联段落;根据多个所述关联文档对应的关联段落间的跨度,获取所述询问文本对应的答案概率分布;根据所述答案概率分布创建答案分类模型;本发明可有效提高从大量文档中获取问题解答的效率和准确性。

Description

一种多文档阅读理解方法
技术领域
本发明涉及自然语言处理领域,尤其涉及一种多文档阅读理解方法。
背景技术
目前大多数问题回答模型无法扩展到文档或多文档输出,并且单纯地将这些模型独立地应用于每个段落,通常会导致它们被无关紧要的文本分散注意力。尤其针对海量的数据库文档,问题查询获取的答案往往包含大量的噪声,且不利于获取准确的答案。
发明内容
鉴于以上现有技术存在的问题,本发明提出一种多文档阅读理解方法,主要解决海量数据答案寻优准确率低的问题。
为了实现上述目的及其他目的,本发明采用的技术方案如下。
一种多文档阅读理解方法,包括:
创建文档库;
获取询问文本,根据所述询问文本从所述文档库中提取多个关联文档;
根据所述询问文本与所述多个关联文档的相似度,获取每个所述关联文档中的对应所述询问文本的关联段落;
根据多个所述关联文档对应的关联段落间的距离,获取所述询问文本对应的答案概率分布;
根据所述答案概率分布创建答案分类模型。
可选地,获取所述询问文本中的关键词;
根据所述关键词通过词频统计从所述文档库中选出多个关联文档。
可选地,根据所述询问文本创建问题向量;
根据每个所述关联文档中个段落的向量表示创建对应的所述关联文档的向量空间;
根据所述向量空间与所述问题向量的相似度,获取每个所述关联文档中与所述询问文本对应的关联段落。
可选地,对所述询问文本进行字符级拆分,获取字符序列;
对所述询问文本进行词级拆分,获取单词序列;
将所述字符序列和所述单词序列进行连接,获取问题序列;
将所述问题序列输入神经网络获取所述问题向量。
可选地,将所述问题向量嵌入所述关联段落,获取关联向量。
可选地,选取其中一个所述关联向量对应作为候选代表;
根据其他所述关联向量与所述候选代表的位置距离,初始化各关联向量的概率分布。
可选地,构建基于所述关联向量概率分布的目标函数;
根据所述目标函数构造训练模型,将所述关联向量输入所述训练模型获取答案分类。
可选地,通过所述训练模型获取其中一个关联段落中的单词与其他关联段落中的单词的相似度,建立该关联段落与其他关联段落的映射关系,将映射结果融入对应的关联向量作为所述训练模型的输入。
可选地,通过softmax函数对所述训练模型的输出进行分类。
如上所述,本发明一种多文档阅读理解方法,具有以下有益效果。
根据多个文档间的关联段落概率分布对答案进行评估,可有效提高大量数据处理的准确性。
附图说明
图1为本发明一实施例中多文档阅读理解的流程图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
请参阅图1,本发明提供一种多文档阅读理解方法,包括步骤S01-S05。
在步骤S01中,创建文档库:
根据文档所属技术领域,将文档进行归类,将同一类别的文档存入数据库中创建文档库。如法律判决文书,通常可分为交通事故类、民事纠纷类、刑事类等类别,针对不同类别创建对应的文档库,当用户需要咨询交通事故类问题时,可在交通事故判决书对应的文档库中查询用户所需答案。由于每日产生的判决文书体量巨大,可定期对文档库进行更新。
在步骤S02中,获取询问文本,根据询问文本从文档库中提取多个关联文档;
在一实施例中,可通过用户界面采集用户输入的询问文本,或收集网页论坛中的用户的询问文本,作为模型训练的样本。可对询问文本中的关键词或短语进行标注,根据标注信息,提取询问文本中的关键词或短语。根据提取的关键词,对文档库中文本进行词频统计。在另一实施例中,可采用TF-IDF方法,统计询问文本中关键词在文档库中的单个文档中的出现频率,并统计出现对应关键词的文档数,通过词频比率计算获取统计相似度,根据相似度预先设定的相似度阈值判断哪些文档可作为询问文本对应的关联文档。
在步骤S03中,根据询问文本与多个关联文档的相似度,获取每个关联文档中的对应询问文本的关联段落;
在一实施例中,可对询问文本进行预处理,包括询问文本分别进行字符级拆分和词级拆分。将询问文本拆分成单个字符,并将单个字符组成字符序列;同时将询问文本拆分成单个单词,并将单个单词依次组成单词序列,将单词序列和字符序列拼接在一起,构成询问文本的问题序列。将问题序列输入神经网络中,获取询问文本语义表示的问题向量。神经网络可采用卷积神经网络。
在一实施例中,对前述步骤得到的关联文档进行分段处理,获取每个段落的向量表示。将多个段落的向量表示整合成对应关联文档的向量空间。
计算问题向量与各关联文档的向量空间中的向量的相似度,相似度计算可采用欧氏距离法或余弦距离计算方法。可根据预设的相似度阈值判断哪些段落为询问文本对应的关联段落。如问题向量与关联文档A中的i,j,k段落相似度高于70%,则将i,j,k作为询问文本的关联段落。
在一实施例中,可将问题向量嵌入关联段落中,获取关联向量。在进行问题嵌入前,可将问题向量和关联段落对应的段落向量输入双向GRU网络中,通过GRU网络的更新门和重置门获取对应段落相对于询问文本的权重。在GRU网络输入层前设置dropout,对输入按一定比率进行舍弃,以较少计算的数据量,提高效率,其中比率可设置为0.2。
进而,通过双向注意力流模型中的注意力机制,分别计算关联段落中的单词与询问文本中单词的相似度,根据相似度调整对应关联段落相对于询问文本的权重。根据权重将问题向量中的特征嵌入对应的段落向量中,获取关联向量,其中相似度越高则权重越高。设询问文本中包含单词A对应问题向量中的特征a,则A与相应关联段落中单词的相似度达到设定阈值(如0.7),则可将特征a嵌入关联段落相似单词在关联向量中的位置。
在步骤S04中,根据多个关联文档对应的关联段落间的距离,获取询问文本对应的答案概率分布;
在一实施例中,选取其中一个关联向量对应的段落作为候选代表,候选代表的选取可采用随机选取的方式。
在一实施例中,可对关联段落在对应关联文档中的位置进行标注,根据标注的位置信息,获取其他关联段落到候选代表对应的关联段落的位置距离,根据位置距离初始化各关联向量的概率分布。位置距离较小的具有较高的概率。关联向量对应的概率分布即为答案概率分布。
在步骤S05中,根据答案概率分布创建答案分类模型。
在一实施例中,可构造基于关联向量概率分布的目标函数;根据目标函数构造训练模型。目标函数可表示为
Figure BDA0002457632010000041
其中,P(xi)表示第xi各关联向量相对于问题向量的概率分布;N表示关联向量的数量;J(xi)为正则项,可根据实际应用采用L1或L2范数表示对应关联向量与问题向量的距离;α表示正则化系数,可根据实际应用进行设置和调整。
训练模型可设置一层自我注意层,通过自我注意层获取其中一个关联段落中的单词和其他关联段落中的单词的相似度,从而建立关联段落之间的映射关系。自我注意层连接一个双向GRU网络,将关联段落间的映射关系与关联向量相加作为下一步模型训练的输入。同样的,在GRU网络输入层前设置dropout,对输入按一定比率进行舍弃,以较少计算的数据量,提高效率,其中比率可设置为0.2。
在一实施例中,训练模型的最后一层中,可采用双向GRU网络,结合ReLU线性函数计算每个输出节点对应的答案分数。具体的,可将隐藏层与输入串联,并馈入GRU和线性层中预测每个关联段落对应的答案评分。
在一实施例中,训练模型的输出经过softmax函数归一化后对输出进行分类,得到分类模型。
可将用户输入的询问文本直接输入训练好的分类模型中,根据分类模型的输出,获取询问文本对应的优选答案。
综上所述,本发明一种多文档阅读理解方法,通过多个关联文档中的关联段落进行分类评估,可有效提高从海量数据中获取问题解答的效率,提高获取答案的准确性。所以,本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。

Claims (9)

1.一种多文档阅读理解方法,其特征在于,包括:
创建文档库;
获取询问文本,根据所述询问文本从所述文档库中提取多个关联文档;
根据所述询问文本与所述多个关联文档的相似度,获取每个所述关联文档中的对应所述询问文本的关联段落;
根据多个所述关联文档对应的关联段落间的距离,获取所述询问文本对应的答案概率分布;
根据所述答案概率分布创建答案分类模型。
2.根据权利要求1所述的多文档阅读理解方法,其特征在于,
获取所述询问文本中的关键词;
根据所述关键词通过词频统计从所述文档库中选出多个关联文档。
3.根据权利要求1所述的多文档阅读理解方法,其特征在于,
根据所述询问文本创建问题向量;
根据每个所述关联文档中个段落的向量表示创建对应的所述关联文档的向量空间;
根据所述向量空间与所述问题向量的相似度,获取每个所述关联文档中与所述询问文本对应的关联段落。
4.根据权利要求3所述的多文档阅读理解方法,其特征在于,
对所述询问文本进行字符级拆分,获取字符序列;
对所述询问文本进行词级拆分,获取单词序列;
将所述字符序列和所述单词序列进行连接,获取问题序列;
将所述问题序列输入神经网络获取所述问题向量。
5.根据权利要求3所述的多文档阅读理解方法,其特征在于,
将所述问题向量嵌入所述关联段落,获取关联向量。
6.根据权利要求5所述的多文档阅读理解方法,其特征在于,
选取其中一个所述关联向量对应段落作为候选代表;
根据其他所述关联向量与所述候选代表的位置距离,初始化各关联向量的概率分布。
7.根据权利要求6所述的多文档阅读理解方法,其特征在于,
构建基于所述关联向量概率分布的目标函数;
根据所述目标函数构造训练模型,将所述关联向量输入所述训练模型获取答案分类。
8.根据权利要求7所述的多文档阅读理解方法,其特征在于,
通过所述训练模型获取其中一个关联段落中的单词与其他关联段落中的单词的相似度,建立该关联段落与其他关联段落的映射关系,将映射结果融入对应的关联向量作为所述训练模型的输入。
9.根据权利要求7所述的多文档阅读理解方法,其特征在于,
通过softmax函数对所述训练模型的输出进行分类。
CN202010311182.XA 2020-04-20 2020-04-20 一种多文档阅读理解方法 Active CN111680264B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010311182.XA CN111680264B (zh) 2020-04-20 2020-04-20 一种多文档阅读理解方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010311182.XA CN111680264B (zh) 2020-04-20 2020-04-20 一种多文档阅读理解方法

Publications (2)

Publication Number Publication Date
CN111680264A true CN111680264A (zh) 2020-09-18
CN111680264B CN111680264B (zh) 2023-12-22

Family

ID=72433344

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010311182.XA Active CN111680264B (zh) 2020-04-20 2020-04-20 一种多文档阅读理解方法

Country Status (1)

Country Link
CN (1) CN111680264B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112163079A (zh) * 2020-09-30 2021-01-01 民生科技有限责任公司 一种基于阅读理解模型的智能对话方法及系统
CN112818093A (zh) * 2021-01-18 2021-05-18 平安国际智慧城市科技股份有限公司 基于语义匹配的证据文档检索方法、系统及存储介质
CN113076431A (zh) * 2021-04-28 2021-07-06 平安科技(深圳)有限公司 机器阅读理解的问答方法、装置、计算机设备及存储介质

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101377777A (zh) * 2007-09-03 2009-03-04 北京百问百答网络技术有限公司 一种自动问答方法和系统
CN109063032A (zh) * 2018-07-16 2018-12-21 清华大学 一种远程监督检索数据的降噪方法
US20190043379A1 (en) * 2017-08-03 2019-02-07 Microsoft Technology Licensing, Llc Neural models for key phrase detection and question generation
CN109918560A (zh) * 2019-01-09 2019-06-21 平安科技(深圳)有限公司 一种基于搜索引擎的问答方法和装置
CN109918487A (zh) * 2019-01-28 2019-06-21 平安科技(深圳)有限公司 基于网络百科全书的智能问答方法和系统
CN110020009A (zh) * 2017-09-29 2019-07-16 阿里巴巴集团控股有限公司 在线问答方法、装置及系统
CN110083682A (zh) * 2019-04-19 2019-08-02 西安交通大学 一种基于多轮注意力机制的机器阅读理解答案获取方法
CN110134946A (zh) * 2019-04-15 2019-08-16 深圳智能思创科技有限公司 一种针对复杂数据的机器阅读理解方法
CN110222152A (zh) * 2019-05-29 2019-09-10 北京邮电大学 一种基于机器阅读理解的问题答案获取方法及系统
CN110457450A (zh) * 2019-07-05 2019-11-15 平安科技(深圳)有限公司 基于神经网络模型的答案生成方法及相关设备
CN110688491A (zh) * 2019-09-25 2020-01-14 暨南大学 基于深度学习的机器阅读理解方法、系统、设备及介质

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101377777A (zh) * 2007-09-03 2009-03-04 北京百问百答网络技术有限公司 一种自动问答方法和系统
US20190043379A1 (en) * 2017-08-03 2019-02-07 Microsoft Technology Licensing, Llc Neural models for key phrase detection and question generation
CN110020009A (zh) * 2017-09-29 2019-07-16 阿里巴巴集团控股有限公司 在线问答方法、装置及系统
CN109063032A (zh) * 2018-07-16 2018-12-21 清华大学 一种远程监督检索数据的降噪方法
CN109918560A (zh) * 2019-01-09 2019-06-21 平安科技(深圳)有限公司 一种基于搜索引擎的问答方法和装置
CN109918487A (zh) * 2019-01-28 2019-06-21 平安科技(深圳)有限公司 基于网络百科全书的智能问答方法和系统
CN110134946A (zh) * 2019-04-15 2019-08-16 深圳智能思创科技有限公司 一种针对复杂数据的机器阅读理解方法
CN110083682A (zh) * 2019-04-19 2019-08-02 西安交通大学 一种基于多轮注意力机制的机器阅读理解答案获取方法
CN110222152A (zh) * 2019-05-29 2019-09-10 北京邮电大学 一种基于机器阅读理解的问题答案获取方法及系统
CN110457450A (zh) * 2019-07-05 2019-11-15 平安科技(深圳)有限公司 基于神经网络模型的答案生成方法及相关设备
CN110688491A (zh) * 2019-09-25 2020-01-14 暨南大学 基于深度学习的机器阅读理解方法、系统、设备及介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
康潮明: "基于短语句法组块的中文FAQ问答系统研究", 《中国优秀硕士学位全文数据库》 *
霍欢,薛瑶环,周澄睿等: "一种基于关键词扩展的答案块提取模型", 《小型微型计算机系统》, pages 749 - 754 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112163079A (zh) * 2020-09-30 2021-01-01 民生科技有限责任公司 一种基于阅读理解模型的智能对话方法及系统
CN112163079B (zh) * 2020-09-30 2024-02-20 民生科技有限责任公司 一种基于阅读理解模型的智能对话方法及系统
CN112818093A (zh) * 2021-01-18 2021-05-18 平安国际智慧城市科技股份有限公司 基于语义匹配的证据文档检索方法、系统及存储介质
CN113076431A (zh) * 2021-04-28 2021-07-06 平安科技(深圳)有限公司 机器阅读理解的问答方法、装置、计算机设备及存储介质
CN113076431B (zh) * 2021-04-28 2022-09-02 平安科技(深圳)有限公司 机器阅读理解的问答方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
CN111680264B (zh) 2023-12-22

Similar Documents

Publication Publication Date Title
CN109829104B (zh) 基于语义相似度的伪相关反馈模型信息检索方法及系统
CN109271529B (zh) 西里尔蒙古文和传统蒙古文双文种知识图谱构建方法
CN112101040B (zh) 一种基于知识图谱的古代诗词语义检索方法
CN110851596A (zh) 文本分类方法、装置及计算机可读存储介质
CN110263325B (zh) 中文分词系统
CN112818093B (zh) 基于语义匹配的证据文档检索方法、系统及存储介质
CN111680264B (zh) 一种多文档阅读理解方法
CN112306494A (zh) 一种基于卷积和循环神经网络的代码分类及聚类方法
CN111666376B (zh) 一种基于段落边界扫描预测与词移距离聚类匹配的答案生成方法及装置
CN111143507B (zh) 一种基于复合式问题的阅读理解方法
CN113220864B (zh) 智能问答数据处理系统
CN113204624B (zh) 一种多特征融合的文本情感分析模型及装置
CN111145914A (zh) 一种确定肺癌临床病种库文本实体的方法及装置
CN113537304A (zh) 一种基于双向cnn的跨模态语义聚类方法
CN114117039A (zh) 一种小样本文本分类方法及模型
CN113934835B (zh) 结合关键词和语义理解表征的检索式回复对话方法及系统
CN114491062B (zh) 一种融合知识图谱和主题模型的短文本分类方法
CN115759119A (zh) 一种金融文本情感分析方法、系统、介质和设备
CN117891939A (zh) 粒子群算法结合cnn卷积神经网络的文本分类方法
CN117494815A (zh) 面向档案的可信大语言模型训练、推理方法和装置
Arora et al. Comparative question answering system based on natural language processing and machine learning
CN111159340A (zh) 基于随机优化预测的机器阅读理解的答案匹配方法及系统
CN116629258B (zh) 基于复杂信息项数据的司法文书的结构化分析方法及系统
CN117574858A (zh) 一种基于大语言模型的类案检索报告自动生成方法
CN112836054A (zh) 一种基于共生注意力表示学习的服务分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 400000 6-1, 6-2, 6-3, 6-4, building 7, No. 50, Shuangxing Avenue, Biquan street, Bishan District, Chongqing

Applicant after: CHONGQING ZHAOGUANG TECHNOLOGY CO.,LTD.

Address before: 400000 2-2-1, 109 Fengtian Avenue, tianxingqiao, Shapingba District, Chongqing

Applicant before: CHONGQING ZHAOGUANG TECHNOLOGY CO.,LTD.

GR01 Patent grant
GR01 Patent grant