CN112231448A - 一种文档智能问答方法和装置 - Google Patents

一种文档智能问答方法和装置 Download PDF

Info

Publication number
CN112231448A
CN112231448A CN202011425520.9A CN202011425520A CN112231448A CN 112231448 A CN112231448 A CN 112231448A CN 202011425520 A CN202011425520 A CN 202011425520A CN 112231448 A CN112231448 A CN 112231448A
Authority
CN
China
Prior art keywords
paragraph
query statement
document
fine
score
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011425520.9A
Other languages
English (en)
Inventor
王清琛
孟凡华
杜振东
程云
刘聪
茆传羽
张洪磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Yunwen Network Technology Co ltd
Original Assignee
Nanjing Yunwen Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Yunwen Network Technology Co ltd filed Critical Nanjing Yunwen Network Technology Co ltd
Priority to CN202011425520.9A priority Critical patent/CN112231448A/zh
Publication of CN112231448A publication Critical patent/CN112231448A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了一种文档智能问答方法和装置,所述方法包括:步骤1,对文档集合进行分割,生成段落集;步骤2,接收查询语句;步骤3,根据所述查询语句,对所述段落集进行粗筛选,获取粗选段落集;步骤4,根据所述查询语句,对所述粗选段落集进行细筛选,获取细选段落集;步骤5,根据所述查询语句,对所述细选段落集中每个段落进行首尾位置预测,找到与所述查询语句相对应的答案;步骤6,结合所述细选段落集中每个段落分别在步骤3、步骤4和步骤5中的得分,对所述细选段落集中每个段落进行综合排序,获取最优段落和对应答案。本发明减少了人工维护知识库的成本,并且可以快速进行查询语句的检索。

Description

一种文档智能问答方法和装置
技术领域
本发明涉及计算机信息技术领域,具体而言,涉及一种文档智能问答方法和装置。
背景技术
文档智能问答,简单地讲,就是从具有海量文档的数据库中,寻找到用户问题所对应的答案。文档智能问答可以解决的业务场景主要集中在企业文档更新频繁、文档量大的企业业务上,该类业务利用传统的整理拆解工作量大,文档信息繁杂,人工整理的难度较高。例如保险行业,有着大量的保单资料、险种说明文档、理赔手册、国家政策等,再比如科技公司的产品说明、高校的论文课件、律师事务所、电力、金融服务公司、设计院、物流、电商等等。
传统的基于知识库的文档智能问答系统需要提前进行人工提取问题-答案对,然后构建问答知识库,再通过检索的方法从知识库中找寻出用户问题所对应的答案,然而维护知识库往往需要较大时间成本和经济成本。
发明内容
鉴于上述问题,本发明提供了一种文档智能问答方法和装置,降低知识库维护成本的问题。
为解决上述技术问题,本发明采用的技术方案是:一种文档智能问答方法,包括:
步骤1,对文档集合进行分割,生成段落集;
步骤2,接收查询语句;
步骤3,根据所述查询语句,对所述段落集进行粗筛选,获取粗选段落集;
步骤4,根据所述查询语句,对所述粗选段落集进行细筛选,获取细选段落集;
步骤5,根据所述查询语句,对所述细选段落集中每个段落进行首尾位置预测,找到与所述查询语句相对应的答案;
步骤6,结合所述细选段落集中每个段落分别在步骤3、步骤4和步骤5中的得分,对所述细选段落集中每个段落进行综合排序,获取最优段落和对应答案。
作为优选方案,所述对文档集合进行分割,包括:将文档集合中的每篇文档按标点符号分割成多个句子;按照固定长度将多个句子合并成段落,且多个句子的总长度小于固定长度;在段落前增加文档题目和段落题目。
作为优选方案,对所述段落集进行粗筛选,包括:通过BM25算法计算所述段落集中每个段落与查询语句的相关性,获取段落相关性分数并进行排序,筛选出排序靠前的段落构建粗选段落集。
作为优选方案,所述段落相关性分数的计算公式如下所示:
Figure 573103DEST_PATH_IMAGE001
其中, pi为段落集P中的一个段落, n为查询语句中词的个数, qj为查询语句中第j个词, Wj为查询语句中词的权重,R(qj,pi)为词与段落pi的相关性分数;
Figure 611466DEST_PATH_IMAGE002
其中,N表示段落集P中段落的总个数,dfj表示包含词汇qj的段落的个数;
Figure 512689DEST_PATH_IMAGE003
其中,k1、k2和b是调协因子,分别设为2,1,0.75,fj表示查询语句Q中qj词汇在段落中出现的次数,q表示qj词汇在查询语句Q中出现的次数,dl为段落的长度,avg_dl为段落集P中所有段落的平均长度。
作为优选方案,所述对所述粗选段落集进行细筛选,包括:利用RoBerta-Search模型获取所述粗选段落集中每个段落与查询语句的匹配表征,再结合softmax函数对每个匹配表征进行打分,所述对每个匹配表征进行打分的计算公式如下所示:
Figure 687318DEST_PATH_IMAGE004
其中,Ei是查询语句与段落pi的匹配表征,W和b分别为权重和偏置,mi表示查询语句与 段落pi的匹配表征的分数,
Figure 553643DEST_PATH_IMAGE005
为段落pi分数的自然数指数,
Figure 16985DEST_PATH_IMAGE006
为所有段落分数的 自然数指数之和。
作为优选方案,所述对所述细选段落集中每个段落进行首尾位置预测,找到与所述查询语句相对应的答案,包括:利用RoBerta-MRC模型获取所述细选段落集中每个段落与查询语句的匹配表征,再结合softmax函数对每个匹配表征进行打分,计算公式如下所示:
Figure 626958DEST_PATH_IMAGE007
Figure 921673DEST_PATH_IMAGE008
其中,Epi为查询语句与细选段落集中每个段落pi的匹配表征,Wstart和bstart分别为答案起始位置的权重和偏置,mstart为段落pi每个字对应的分数,scorestart为最佳答案起始位置的分数;Wend和bend分别为答案结束位置的权重和偏置,mend为段落pi每个字对应的分数,scoreend为最佳答案结束位置的分数;score为答案的最终分数。
作为优选方案,所述细选段落集中每个段落分别在步骤3、步骤4和步骤5中的得分的计算公式如下所示:
最终得分=步骤3得分*0.1+步骤4得分*0.5+步骤5得分*0.4。
作为优选方案,所述文档集合的文档格式为PDF时,使用pdfbox将其转化成纯文本格式,然后使用poi工具读取文档内容。
本发明还提供了一种智能问答装置,包括:段落集生成模块,用于对文档集合进行分割,生成段落集;语句接收模块,用于接收查询语句;粗选段落集获取模块,用于根据所述查询语句,对所述段落集进行粗筛选,获取粗选段落集;细选段落集获取模块,根据所述查询语句,对所述粗选段落集进行细筛选,获取细选段落集;答案预测模块,用于根据所述查询语句,对所述细选段落集中每个段落进行首尾位置预测,找到与所述查询语句相对应的答案;最优段落获取模块,用于结合所述细选段落集中每个段落分别在粗选段落集获取模块、细选段落集获取模块和答案预测模块中的得分,对所述细选段落集中每个段落进行综合排序,获取最优段落和对应答案。
与现有技术相比,本发明的有益效果包括:通过检索的方法直接从文档集合中找出与查询语句最相关的段落,并在段落中定位答案所在的区域,减少了人工维护知识库的成本,并且可以快速进行查询语句的检索。
附图说明
参照附图来说明本发明的公开内容。应当了解,附图仅仅用于说明目的,而并非意在对本发明的保护范围构成限制。在附图中,相同的附图标记用于指代相同的部件。其中:
图1为本发明实施例的文档智能问答方法的实际演示图;
图2为本发明实施例的文档智能问答方法的流程示意图;
图3为本发明实施例的智能问答装置的结构示意图。
具体实施方式
容易理解,根据本发明的技术方案,在不变更本发明实质精神下,本领域的一般技术人员可以提出可相互替换的多种结构方式以及实现方式。因此,以下具体实施方式以及附图仅是对本发明的技术方案的示例性说明,而不应当视为本发明的全部或者视为对本发明技术方案的限定或限制。
应理解,在进行智能问答之前,需要通过大量数据对阅读理解模型进行训练。本实施例中,采用军工和设计院两个领域的标注数据对阅读理解模型进行训练,每条标注数据均包括一个查询语句,五篇与查询语句对应的文档,而且配有与查询语句对应的答案,并标注答案在文档中的位置。
当然也可以采用保险行业、高校、律师事务所、电力、金融服务公司等领域的说明书、规章制度等进行训练,如下表所示:
产品说明书 各类产品(电商、软件、硬件)的说明书、操作手册等
国标文件 设计院文档、国家规范制度
保险保单 责任免除、销售时间、保险责任、保额说明、投保规则
理财说明 准入条件、准出条件、收益说明、手续费
法律政策 法律文书、社保、户政
公司规章 考勤、薪资、员工手册
由于采用多种领域的数据进行训练,使得该模型具有一定的泛化能力,因此,在面对其他领域数据时,也可以保证较高的准确率,可用性好。
如图1所示,将现有的文档集合和查询语句载入阅读理解模型,阅读理解模型从文档集合中自动检索出与查询语句最相关的段落,并对该段落中的答案进行高亮显示。
根据本发明的一实施方式结合图2示出。一种文档智能问答方法,包括如下步骤:
步骤S101,对文档集合D进行分割,生成段落集P。对现有文档集合D进行分割,包括:按照固定长度L对文档集合D进行分割,每篇文档di被分割成多个段落pi,构建成段落集P。其中,每个段落pi包括文档题目、段落题目和文档正文。
分割时,首先按句号、问号、感叹号等标点符号将文档集合D分割成多个句子,然后按照固定长度L将句子合并成段落,且多个句子的总长度小于固定长度L,最后在段落前增加文档题目和段落题目构成检索使用的真实段落。
当文档集合D的文档格式可以为PDF、word、txt,当文档格式为PDF时,使用pdfbox将其转化成纯文本格式,然后使用poi工具读取文档内容。
步骤S102,接收查询语句Q。
步骤S103,根据查询语句Q,对段落集P进行粗筛选,获取粗选段落集P30。
具体的,对段落集P进行粗筛选,包括:通过BM25算法计算段落集P中每个段落pi与查询语句Q的相关性,获取段落相关性分数并进行排序,筛选出排序靠前的段落,构建粗选段落集P30。例如,筛选出与查询语句Q最相关的前30个段落构建粗选段落集P30。
段落相关性分数的计算公式如下所示:
Figure 427741DEST_PATH_IMAGE001
其中, pi为段落集P中的一个段落, n为查询语句Q中词的个数, qj为查询语句Q中第j个词, Wj为查询语句Q中词的权重,R(qj,pi)为词与段落pi的相关性分数;
Figure 909538DEST_PATH_IMAGE002
其中,N表示段落集P中段落的总个数,dfj表示包含词汇qj的段落的个数;
Figure 588781DEST_PATH_IMAGE009
其中,k1、k2和b是调协因子,一般分别设为2,1,0.75,fj表示查询语句Q中qj词汇在段落中出现的次数,q表示qj词汇在查询语句Q中出现的次数,dl为段落的长度,avg_dl为段落集P中所有段落的平均长度。
步骤S104,根据查询语句Q,对粗选段落集P30进行细筛选,获取细选段落集P5。具体的,对粗选段落集P30进行细筛选,包括:
利用RoBerta-Search模型获取粗选段落集P30中每个段落pi与查询语句Q的匹配表征Ei,再结合softmax函数对30个匹配表征Ei进行打分并排序。例如:从粗选段落集P30中筛选出与查询语句Q最相关的前5个段落构建细选段落集P5。
对每个匹配表征Ei进行打分的计算公式如下所示:
Figure 675686DEST_PATH_IMAGE010
其中,Ei是查询语句与段落pi的匹配表征,W和b分别为权重和偏置,mi表示查询语句与 段落pi的匹配表征的分数,
Figure 713174DEST_PATH_IMAGE011
为段落pi分数的自然数指数,
Figure 947846DEST_PATH_IMAGE012
为所有段落分数的 自然数指数之和。
步骤S105,根据查询语句Q,对细选段落集P5中每个段落pi进行首尾位置预测,找到与查询语句Q相对应的答案。
具体的,对细选段落集P5中每个段落pi进行首尾位置预测,找到与查询语句Q相对应的答案,包括:利用RoBerta-MRC模型获取细选段落集P5中每个段落pi与查询语句Q的匹配表征Epi,再结合softmax函数对5个匹配表征Epi进行打分,从每个段落pi中找到与查询语句Q相对应的答案。计算公式如下所示:
Figure 102884DEST_PATH_IMAGE013
其中,Epi为查询语句Q与细选段落集P中每个段落pi的匹配表征,Wstart和bstart分别为答案起始位置的权重和偏置,mstart为段落pi每个字对应的分数,scorestart为最佳答案起始位置的分数;Wend和bend分别为答案结束位置的权重和偏置,mend为段落pi每个字对应的分数,scoreend为最佳答案结束位置的分数;score为答案的最终分数。
步骤S106,结合细选段落集P5中每个段落pi分别在步骤S103、步骤S104和步骤S105中的得分,对细选段落集P5中每个段落pi进行综合排序,获取最优段落和对应答案,即分数最高的段落为最优段落。
细选段落集P5中每个段落pi分别在步骤S103、步骤S104和步骤S105中的得分的计算公式如下所示:
最终得分=步骤S103得分*0.1+步骤S104得分*0.5+步骤S105得分*0.4。
如图3所示,本发明还提供了一种智能问答装置,包括:
段落集生成模块101,用于对文档集合D进行分割,生成段落集P;
语句接收模块102,用于接收查询语句Q;
粗选段落集获取模块103,用于根据查询语句Q,对段落集进行粗筛选,获取粗选段落集P30;
细选段落集获取模块104,根据查询语句Q,对粗选段落集P30进行细筛选,获取细选段落集P5;
答案预测模块105,用于根据查询语句Q,对细选段落集P5中每个段落进行首尾位置预测,找到与查询语句Q相对应的答案;
最优段落获取模块106,用于结合细选段落集P5中每个段落分别在粗选段落集获取模块103、细选段落集获取模块104和答案预测模块105中的得分,对细选段落集中每个段落进行综合排序,获取最优段落和对应答案。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
综上所述,本发明的有益效果包括:通过检索的方法直接从文档集合D中找出与查询语句最相关的段落,并在段落中定位答案所在的区域,减少了人工维护知识库的成本,并且可以快速进行查询语句的检索。
应理解,所述集成的装置如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括 :U 盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本发明的技术范围不仅仅局限于上述说明中的内容,本领域技术人员可以在不脱离本发明技术思想的前提下,对上述实施例进行多种变形和修改,而这些变形和修改均应当属于本发明的保护范围内。

Claims (9)

1.一种文档智能问答方法,其特征在于,包括:
步骤1,对文档集合进行分割,生成段落集;
步骤2,接收查询语句;
步骤3,根据所述查询语句,对所述段落集进行粗筛选,获取粗选段落集;
步骤4,根据所述查询语句,对所述粗选段落集进行细筛选,获取细选段落集;
步骤5,根据所述查询语句,对所述细选段落集中每个段落进行首尾位置预测,找到与所述查询语句相对应的答案;
步骤6,结合所述细选段落集中每个段落分别在步骤3、步骤4和步骤5中的得分,对所述细选段落集中每个段落进行综合排序,获取最优段落和对应答案。
2.根据权利要求1所述的文档智能问答方法,其特征在于,所述对文档集合进行分割,包括:
将文档集合中的每篇文档按标点符号分割成多个句子;
按照固定长度将多个句子合并成段落,且多个句子的总长度小于固定长度;
在段落前增加文档题目和段落题目。
3.根据权利要求1所述的文档智能问答方法,其特征在于,对所述段落集进行粗筛选,包括:
通过BM25算法计算所述段落集中每个段落与查询语句的相关性,获取段落相关性分数并进行排序,筛选出排序靠前的段落构建粗选段落集。
4.根据权利要求3所述的文档智能问答方法,其特征在于,所述段落相关性分数的计算公式如下所示:
Figure DEST_PATH_IMAGE002
其中, pi为段落集P中的一个段落, n为查询语句中词的个数, qj为查询语句中第j个词, Wj为查询语句中词的权重,R(qj,pi)为词与段落pi的相关性分数;
Figure DEST_PATH_IMAGE004
其中,N表示段落集P中段落的总个数,dfj表示包含词汇qj的段落的个数;
Figure DEST_PATH_IMAGE006
其中,k1、k2和b是调协因子,分别设为2,1,0.75,fj表示查询语句Q中qj词汇在段落中出现的次数,q表示qj词汇在查询语句Q中出现的次数,dl为段落的长度,avg_dl为段落集P中所有段落的平均长度。
5.根据权利要求1所述的文档智能问答方法,其特征在于,所述对所述粗选段落集进行细筛选,包括:
利用RoBerta-Search模型获取所述粗选段落集中每个段落与查询语句的匹配表征,再结合softmax函数对每个匹配表征进行打分,所述对每个匹配表征进行打分的计算公式如下所示:
Figure DEST_PATH_IMAGE008
其中,Ei是查询语句与段落pi的匹配表征,W和b分别为权重和偏置,mi表示查询语句与段落pi的匹配表征的分数,
Figure DEST_PATH_IMAGE010
为段落pi分数的自然数指数,
Figure DEST_PATH_IMAGE012
为所有段落分数的自然数指数之和。
6.根据权利要求1所述的文档智能问答方法,其特征在于,所述对所述细选段落集中每个段落进行首尾位置预测,找到与所述查询语句相对应的答案,包括:
利用RoBerta-MRC模型获取所述细选段落集中每个段落与查询语句的匹配表征,再结合softmax函数对每个匹配表征进行打分,计算公式如下所示:
Figure DEST_PATH_IMAGE014
Figure DEST_PATH_IMAGE016
其中,Epi为查询语句与细选段落集中每个段落pi的匹配表征,Wstart和bstart分别为答案起始位置的权重和偏置,mstart为段落pi每个字对应的分数,scorestart为最佳答案起始位置的分数;Wend和bend分别为答案结束位置的权重和偏置,mend为段落pi每个字对应的分数,scoreend为最佳答案结束位置的分数;score为答案的最终分数。
7.根据权利要求1所述的文档智能问答方法,其特征在于,所述细选段落集中每个段落分别在步骤3、步骤4和步骤5中的得分的计算公式如下所示:
最终得分=步骤3得分*0.1+步骤4得分*0.5+步骤5得分*0.4。
8.根据权利要求1所述的文档智能问答方法,其特征在于,所述文档集合的文档格式为PDF时,使用pdfbox将其转化成纯文本格式,然后使用poi工具读取文档内容。
9.一种智能问答装置,其特征在于,包括:
段落集生成模块,用于对文档集合进行分割,生成段落集;
语句接收模块,用于接收查询语句;
粗选段落集获取模块,用于根据所述查询语句,对所述段落集进行粗筛选,获取粗选段落集;
细选段落集获取模块,根据所述查询语句,对所述粗选段落集进行细筛选,获取细选段落集;
答案预测模块,用于根据所述查询语句,对所述细选段落集中每个段落进行首尾位置预测,找到与所述查询语句相对应的答案;
最优段落获取模块,用于结合所述细选段落集中每个段落分别在粗选段落集获取模块、细选段落集获取模块和答案预测模块中的得分,对所述细选段落集中每个段落进行综合排序,获取最优段落和对应答案。
CN202011425520.9A 2020-12-09 2020-12-09 一种文档智能问答方法和装置 Pending CN112231448A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011425520.9A CN112231448A (zh) 2020-12-09 2020-12-09 一种文档智能问答方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011425520.9A CN112231448A (zh) 2020-12-09 2020-12-09 一种文档智能问答方法和装置

Publications (1)

Publication Number Publication Date
CN112231448A true CN112231448A (zh) 2021-01-15

Family

ID=74124693

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011425520.9A Pending CN112231448A (zh) 2020-12-09 2020-12-09 一种文档智能问答方法和装置

Country Status (1)

Country Link
CN (1) CN112231448A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113448984A (zh) * 2021-07-15 2021-09-28 中国银行股份有限公司 文档定位展示方法、装置、服务器及电子设备
CN116882450A (zh) * 2023-09-07 2023-10-13 腾讯科技(深圳)有限公司 问答模型的编辑方法、装置、电子设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020077352A1 (en) * 2018-10-12 2020-04-16 Human Longevity, Inc. Multi-omic search engine for integrative analysis of cancer genomic and clinical data
CN111310411A (zh) * 2020-03-09 2020-06-19 重庆邮电大学 一种基于多样性模型的文本相关性判定方法、装置和设备
CN111581354A (zh) * 2020-05-12 2020-08-25 金蝶软件(中国)有限公司 一种faq问句相似度计算方法及其系统
CN111753053A (zh) * 2020-06-19 2020-10-09 神思电子技术股份有限公司 一种基于预训练模型的阅读理解改进方法
CN112035626A (zh) * 2020-07-06 2020-12-04 北海淇诚信息科技有限公司 一种大规模意图的快速识别方法、装置和电子设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020077352A1 (en) * 2018-10-12 2020-04-16 Human Longevity, Inc. Multi-omic search engine for integrative analysis of cancer genomic and clinical data
CN111310411A (zh) * 2020-03-09 2020-06-19 重庆邮电大学 一种基于多样性模型的文本相关性判定方法、装置和设备
CN111581354A (zh) * 2020-05-12 2020-08-25 金蝶软件(中国)有限公司 一种faq问句相似度计算方法及其系统
CN111753053A (zh) * 2020-06-19 2020-10-09 神思电子技术股份有限公司 一种基于预训练模型的阅读理解改进方法
CN112035626A (zh) * 2020-07-06 2020-12-04 北海淇诚信息科技有限公司 一种大规模意图的快速识别方法、装置和电子设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
学到老: "自然语言处理-搜索中常用的bm2", 《HTTPS://CLOUD.TENCENT.COM/DEVELOPER/ARTICLE/1572148?FROM=INFORMATION.DETAIL.BM25》 *
朱运昌等: "面向长答案的机器问答研究", 《山西大学学报(自然科学版)》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113448984A (zh) * 2021-07-15 2021-09-28 中国银行股份有限公司 文档定位展示方法、装置、服务器及电子设备
CN113448984B (zh) * 2021-07-15 2024-03-26 中国银行股份有限公司 文档定位展示方法、装置、服务器及电子设备
CN116882450A (zh) * 2023-09-07 2023-10-13 腾讯科技(深圳)有限公司 问答模型的编辑方法、装置、电子设备和存储介质
CN116882450B (zh) * 2023-09-07 2023-12-26 腾讯科技(深圳)有限公司 问答模型的编辑方法、装置、电子设备和存储介质

Similar Documents

Publication Publication Date Title
US8666994B2 (en) Document analysis and association system and method
US7702621B2 (en) System and method for providing profile matching within an unstructured document
CN111767716B (zh) 企业多级行业信息的确定方法、装置及计算机设备
Olensky et al. Evaluation of the citation matching algorithms of CWTS and i FQ in comparison to the W eb of science
CN112632228A (zh) 一种基于文本挖掘的辅助评标方法及系统
CN114911917B (zh) 资产元信息搜索方法、装置、计算机设备及可读存储介质
US9400826B2 (en) Method and system for aggregate content modeling
CN112231448A (zh) 一种文档智能问答方法和装置
US8548999B1 (en) Query expansion
CN117633179A (zh) 一种铁路行业智能问答助手系统
CN112184021B (zh) 一种基于相似支持集的答案质量评估方法
Arts et al. Position and differentiation of firms in technology space
CN111104422A (zh) 一种数据推荐模型的训练方法、装置、设备及存储介质
CN116431763A (zh) 面向领域的科技项目查重方法及系统
CN115934927A (zh) 一种安全知识的推送方法、系统、存储介质和电子设备
CN111241399B (zh) 一种上市公司关注度的评估方法
CN114443961A (zh) 一种内容过滤科技成果推荐方法、模型及存储介质
AU2021410731A1 (en) System and method for parsing regulatory and other documents for machine scoring
Yoshioka et al. HUKB at COLIEE2018 information retrieval task
KR20220005167A (ko) 인공지능을 이용한 표준 문서 기반 법률 문서 분석 방법 및 이를 위한 장치
CN115829301B (zh) 一种基于组织团队配置的辅助管理方法、设备及介质
US11983486B1 (en) Machine learning techniques for updating documents generated by a natural language generation (NLG) engine
KR20120014466A (ko) 용어 가중화 색인 기반의 블로그 권위 랭킹 방법
Zubarev et al. Method for Expert Search Using Topical Similarity of Documents
Kaliba COMPETENCES DESIRED BY EMPLOYERS OF HUMAN RESOURCES MANAGEMENT IN LOUISIANA: IMPLICATIONS FOR IMPROVING ELECTRONIC RESUMES FOR JOB SEEKERS

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210115