CN116881425A - 一种通用型文档问答实现方法、系统、设备及存储介质 - Google Patents

一种通用型文档问答实现方法、系统、设备及存储介质 Download PDF

Info

Publication number
CN116881425A
CN116881425A CN202310995639.7A CN202310995639A CN116881425A CN 116881425 A CN116881425 A CN 116881425A CN 202310995639 A CN202310995639 A CN 202310995639A CN 116881425 A CN116881425 A CN 116881425A
Authority
CN
China
Prior art keywords
question
document
text segment
text
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310995639.7A
Other languages
English (en)
Inventor
胡华
周逸聪
郭鹏程
钟刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Firehome Putian Information Technology Co ltd
Original Assignee
Wuhan Firehome Putian Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Firehome Putian Information Technology Co ltd filed Critical Wuhan Firehome Putian Information Technology Co ltd
Priority to CN202310995639.7A priority Critical patent/CN116881425A/zh
Publication of CN116881425A publication Critical patent/CN116881425A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/319Inverted lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Abstract

本发明公开一种通用型文档问答实现方法,包括以下步骤:S1、将不同格式的文档解析成纯文本格式的文档集;S2、将所述文档集分成语义完整不冗余的文本段集合D;S3、对所述文本段集合D建立倒排索引库IndexS和向量索引库IndexV;S4、对用户的问句在所述倒排索引库和所述向量索引库进行检索,使用动态加权相似度的方式计算所述问句与所述文本段集合的相似度,得到最相关的top‑k个候选文本段Dcand;S5、将所述问句和所述候选文本段构建Prompt模板,将Prompt模板输入至大模型中进行答案的生成;本发明答案检索召回率高,对复杂问题的解析及处理能力强,并且能够免去人工标注成本,使其方便快速的拓展到其他任意场景,赋予文档问答通用能力。

Description

一种通用型文档问答实现方法、系统、设备及存储介质
技术领域
本发明涉及到信息技术领域,具体涉及到一种通用型文档问答实现方法。
背景技术
文档型问答(Document-based Question Answering,简称文档型QA)是自然语言处理领域中的一个重要分支,文档型QA任务需要对非结构化的文档库中的每篇文档进行深入理解和分析,从中提取相关信息,然后根据用户提出的问题给出准确的答案。其目标是使计算机具备类似人类阅读和理解文本的能力,并根据用户的问题提供准确的答案。
这与传统的搜索引擎不同,传统搜索引擎返回的是与关键词相关的文档列表,而文档型问答系统更加注重从文档中直接提取用户所需的具体的答案。因此,文档型QA可以帮助用户快速获取所需的知识和答案,减轻人工工作负担,提高用户满意度,能够帮助组织及个人高效、准确地管理和利用大量的文档和知识库。
目前针对文档型QA任务,普遍的实现方法是:1)先对文档库中的文档进行切分,然后使用Inverted Index方法构建细粒度的文本索引库;2)对问句进行解析,使用BM25、tfidf等文本相似度算法从文本索引库中检索召回出匹配度最高的top-k个文本段;3)然后利用机器阅读理解技术从检索出的相关文本段中抽取出答案返回给用户。此方法比较适合处理逻辑简单、句式单一、表述标准的问题,并给出简短的答案。
现有技术缺陷在于:1)由于文档切分容易将答案文本一分为二或者将不同语义的文本切分到一起,导致检索召回阶段无法召回包含答案的文本段,导致准确率不佳;2)对于逻辑较为复杂、句式较为繁琐、表述多样的解释型、概括型、判断型等问题显得并不适用;3)问句解析及机器阅读理解阶段需要标注大量与任务场景相关的数据进行算法的训练,人工成本较大且无法直接拓展到其他场景,缺乏通用性。
发明内容
本发明的目的是针对现有技术存在的问题,提供一种通用型文档问答实现方法,答案检索召回率高,对复杂问题的解析及处理能力强,并且能够免去人工标注成本,使其方便快速的拓展到其他任意场景,赋予文档问答通用能力。
为实现上述目的,本发明采用的技术方案是:
一种通用型文档问答实现方法,包括以下步骤:
S1、将不同格式的文档解析成纯文本格式的文档集;
S2、将所述文档集分成语义完整不冗余的文本段集合D;
S3、对所述文本段集合D建立倒排索引库IndexS和向量索引库IndexV;
S4、对用户的问句在所述倒排索引库和所述向量索引库进行检索,使用动态加权相似度的方式计算所述问句与所述文本段集合的相似度,得到最相关的top-k个候选文本段Dcand
S5、将所述问句和所述候选文本段构建Prompt模板,将Prompt模板输入至大模型中进行答案的生成。
步骤S1具体为,文档格式包括Word、PDF、TXT和XML,使用Python的各类文本格式解析框架对不同格式文档进行解析。
步骤S2具体包括,将文档切分转换为语义连贯性判断任务,并使用大模型ChatGLM-6B进行实现。
所述语义连贯性判断任务具体包括以下步骤:
S2.1、使用换行符对所述文档集进行分段,得集合P;
S2.2、构建语义连贯性判断任务的Prompt模板,将具体上文和下文填充至Prompt模板中得到完整的语义连贯性判断任务输入,输入至ChatGLM-6B进行推理,得到是否语义连贯的结果;
S2.3、对分段后的所有段落循环遍历,进行语义连贯性判断,构建语义连贯不冗余的文本段集合D,设最后得到的D的长度为M。
构建倒排索引库IndexS的步骤具体为,
S3.1、使用jieba分词对全文本段集合进分词,构建词表V={v0,v1,...vi,...},词表长度为L;
S3.2、遍历词表,统计每个词语在哪些文本段中出现过,得每个词语所属的文本段子集Dvi
S3.3、计算每个词语在文本段集D中的逆文档频率idfvi,其代表了词语vi在文本段集D中的重要性程度;
S3.4、由以上可得每个词语的数据,[vi,Dvi,idfvi],然后将其追加到IndexS中,遍历完成后得到完整IndexS。
构建向量索引库IndexV的步骤具体为,设向量维度为N,构建出的indexV是一个行数为M,列数为N的矩阵,如下:
其中,每一行代表的每个文本段的向量化语义表示,文本段的向量化方法使用预训练的文本Embedding模型。
步骤S4具体包括:
S4.1、基于倒排索引的问句-文本段相似度计算,算法公式如下:
其中,qi为问句Q分词后的语素,ki,b为调节因子;fi为qi在文本段d中的出现频率;dl为文本段d的长度;avgdl为所有文档的平均长度,ScoreI(Q,d)值域为[0,1];
S4.2、基于向量索引的问句-文本段相似度计算,先对问句Q进行向量化,同样使用文本Embedding模型,得到VQ,然后使用余弦相似度计算步骤如下:
其中,ScoreV(Q,d)值域为[0,1];
S4.3、使用动态加权相似度对两类相似度进行加权平均,得到最终的向量索引的问句-文本段相似度,如下:
Score(Q,d)=α·ScoreI(Q,d)+(1-α)·ScoreV(Q,d);
其中,α的值域为[0,1],其计算方法如下:
S4.4、计算问句与每篇文本段的加权相似度,得到相似度最高的top-k个候选文本段Dcand
一种基于大语言模型的通用型文档问答系统,包括:
文档解析模块,用于将不同格式的文档解析成纯文本格式的文档集;
文档切分模块,用于将所述文档集分成语义完整不冗余的文本段集合D;
文本段索引构建模块,用于构建倒排索引库IndexS和向量索引库IndexV;
检索召回模块,用于对用户的问句在所述倒排索引库和所述向量索引库进行检索,使用动态加权相似度的方式计算所述问句与所述文本段集合的相似度,得到最相关的top-k个候选文本段Dcand;
答案生成模块,用于将所述问句和所述候选文本段构建Prompt模板,将Prompt模板输入至大模型中进行答案的生成。
一种电子设备,所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行上述的通用型文档问答实现方法。
一种存储介质,所述存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现上述的通用型文档问答实现方法。
与现有技术相比,本发明的有益效果是:
1、在文本段切分时,将文档切分转换为语义连贯性判断任务,并使用大模型ChatGLM-6B进行实现,使文档形成语义完整不冗余的文本段集合,解决了文档切分语义不连贯,导致检索召回准确率不佳的问题;
2、对用户的问句分别在倒排索引库向量索引库进行检索,使用动态加权相似度的方式计算问题与文本段集合的相似度,两者在文本段字面层面及语义层面对文本段进行表示,使用动态加权相似度的方式计算问题与文本段集合的相似度,得到最相关的top-k个候选文本段,对复杂问题的解析及处理能力强,能够提高答案检索召回的准确率;
3、该将原问句和top-k个候选文本段构建大模型输入的Prompt,输入至大模型中进行答案的生成,形成连贯易读的答案文本,能够免去人工标注成本,使其方便快速的拓展到其他任意场景,赋予文档问答通用能力。
附图说明
图1为本发明一种通用型文档问答实现方法的逻辑框图。
具体实施方式
下面将结合本发明中的附图,对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动条件下所获得的所有其它实施例,都属于本发明保护的范围。
如图1所示,一种通用型文档问答实现方法,包括以下步骤:
S1、将不同格式的文档解析成纯文本格式的文档集;
S2、将所述文档集分成语义完整不冗余的文本段集合D;
S3、对所述文本段集合D建立倒排索引库IndexS和向量索引库IndexV;
S4、对用户的问句在所述倒排索引库和所述向量索引库进行检索,使用动态加权相似度的方式计算所述问句与所述文本段集合的相似度,得到最相关的top-k个候选文本段Dcand
S5、将所述问句和所述候选文本段构建Prompt模板,如表1所示,将Prompt模板输入至ChatGLM-6B模型中进行答案的生成。
表1
步骤S1具体为,文档格式包括Word、PDF、TXT和XML,使用Python的各类文本格式解析框架对不同格式文档进行解析,比如使用python-docx解析Word格式文件,PyPDF2解析PDF格式文件,lxml解析XML格式。
步骤S2具体为,将文档切分转换为语义连贯性判断任务,并使用大模型ChatGLM-6B进行实现。判断两段话是否具有语义的连续性,是否是描述同一个主题。
所述语义连贯性判断任务具体包括以下步骤:
S2.1、使用换行符对所述文档集进行分段,得集合P;
S2.2、构建语义连贯性判断任务的Prompt模板,如表2所示,将具体上文和下文填充至Prompt模板中得到完整的语义连贯性判断任务输入,输入至ChatGLM-6B进行推理,得到是否语义连贯的结果;
表2
其中,above和below分别是上下文两段文本中的上文和下文;
S2.3、对分段后的所有段落循环遍历,进行语义连贯性判断,构建语义连贯不冗余的文本段集合D,设最后得到的D的长度为M。
构建倒排索引库IndexS,每条数据包括了词语本身、词语的文本段id集合以及词语的逆文档频率,构建步骤包括词表构建、词语文本段统计以及逆文档频率计算,具体如下:
S3.1、使用jieba分词对全文本段集合进分词,构建词表V={v0,v1,...vi,...},词表长度为L;
S3.2、遍历词表,统计每个词语在哪些文本段中出现过,得每个词语所属的文本段子集Dvi
S3.3、计算每个词语在文本段集D中的逆文档频率idfvi,其代表了词语vi在文本段集D中的重要性程度;
S3.4、由以上可得每个词语的数据,[vi,Dvi,idfvi],然后将其追加到IndexS中,遍历完成后得到完整IndexS。
构建向量索引库IndexV的步骤具体为,设向量维度为N,构建出的indexV是一个行数为M,列数为N的矩阵,如下:
其中,每一行代表的每个文本段的向量化语义表示,文本段的向量化方法使用预训练的文本Embedding模型text2vec-large-chinese,也可使用其他同类模型;
步骤S4具体包括:
S4.1、基于倒排索引的问句-文本段相似度计算,算法公式如下:
其中,qi为问句Q分词后的语素,ki,b为调节因子;fi为qi在文本段d中的出现频率;dl为文本段d的长度;avgdl为所有文档的平均长度,ScoreI(Q,d)值域为[0,1];
S4.2、基于向量索引的问句-文本段相似度计算,先对问句Q进行向量化,同样使用文本Embedding模型,得到VQ,然后使用余弦相似度计算步骤如下:
其中,ScoreV(Q,d)值域为[0,1];
S4.3、使用动态加权相似度对两类相似度进行加权平均,得到最终的向量索引的问句-文本段相似度,如下:
Score(Q,d)=α·ScoreI(Q,d)+(1-α)·ScoreV(Q,d);
其中,α的值域为[0,1],其计算方法如下:
S4.4、计算问句与每篇文本段的加权相似度,得到相似度最高的top-k个候选文本段Dcand
本发明还提供一种基于大语言模型的通用型文档问答系统,采用上述的通用型文档问答实现方法,包括:
文档解析模块,用于将不同格式的文档解析成纯文本格式的文档集;
文档切分模块,用于将所述文档集分成语义完整不冗余的文本段集合D;
文本段索引构建模块,用于构建倒排索引库IndexS和向量索引库IndexV;
检索召回模块,用于对用户的问句在所述倒排索引库和所述向量索引库进行检索,使用动态加权相似度的方式计算所述问句与所述文本段集合的相似度,得到最相关的top-k个候选文本段Dcand;
答案生成模块,用于将所述问句和所述候选文本段构建Prompt模板,将Prompt模板输入至大模型中进行答案的生成。
一种电子设备,所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行上述的通用型文档问答实现方法。
一种存储介质,所述存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现上述的通用型文档问答实现方法。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (10)

1.一种通用型文档问答实现方法,其特征在于,包括以下步骤:
S1、将不同格式的文档解析成纯文本格式的文档集;
S2、将所述文档集切分成语义完整不冗余的文本段集合D;
S3、对所述文本段集合D建立倒排索引库IndexS和向量索引库IndexV;
S4、对用户的问句在所述倒排索引库和所述向量索引库进行检索,使用动态加权相似度的方式计算所述问句与所述文本段集合的相似度,得到最相关的top-k个候选文本段Dcand
S5、将所述问句和所述候选文本段构建Prompt模板,将Prompt模板输入至大模型中进行答案的生成。
2.根据权利要求1所述的一种通用型文档问答实现方法,其特征在于,步骤S1具体为,文档格式包括Word、PDF、TXT和XML,使用Python的各类文本格式解析框架对不同格式文档进行解析。
3.根据权利要求1所述的一种通用型文档问答实现方法,其特征在于,步骤S2中,将文档切分任务转换为语义连贯性判断任务,并使用大模型ChatGLM-6B进行实现。
4.根据权利要求3所述的一种通用型文档问答实现方法,其特征在于,所述语义连贯性判断任务具体包括以下步骤:
S2.1、使用换行符对文档集进行分段,得集合P;
S2.2、构建语义连贯性判断任务的Prompt模板,将具体上文和下文填充至Prompt模板中得到完整的语义连贯性判断任务输入,输入至ChatGLM-6B进行推理,得到是否语义连贯的结果;
S2.3、对分段后的所有段落循环遍历,进行语义连贯性判断,构建语义连贯不冗余的文本段集合D,设最后得到的D的长度为M。
5.根据权利要求1所述的一种通用型文档问答实现方法,其特征在于,构建倒排索引库IndexS的步骤具体为,
S3.1、使用jieba分词对全文本段集合进分词,构建词表V={v0,v1,...vi,...},词表长度为L;
S3.2、遍历词表,统计每个词语在哪些文本段中出现过,得每个词语所属的文本段子集Dvi
S3.3、计算每个词语在文本段集D中的逆文档频率idfvi,其代表了词语vi在文本段集D中的重要性程度;
S3.4、由以上可得每个词语的数据,[vi,Dvi,idfvi],然后将其追加到IndexS中,遍历完成后得到完整IndexS。
6.根据权利要求1所述的一种通用型文档问答实现方法,其特征在于,构建向量索引库IndexV的步骤具体为,设向量维度为N,构建出的indexV是一个行数为M,列数为N的矩阵,如下:
其中,每一行代表的每个文本段的向量化语义表示,文本段的向量化方法使用预训练的文本Embedding模型。
7.根据权利要求1所述的一种通用型文档问答实现方法,其特征在于,步骤S4具体包括:
S4.1、基于倒排索引的问句-文本段相似度计算,算法公式如下:
其中,qi为问句Q分词后的语素,ki,b为调节因子;fi为qi在文本段d中的出现频率;
dl为文本段d的长度;avgdl为所有文档的平均长度,ScoreI(Q,d)值域为[0,1];
S4.2、基于向量索引的问句-文本段相似度计算,先对问句Q进行向量化,同样使用文本Embedding模型,得到VQ,然后使用余弦相似度计算步骤如下:
其中,ScoreV(Q,d)值域为[0,1];
S4.3、使用动态加权相似度对两类相似度进行加权平均,得到最终的向量索引的问句-文本段相似度,如下:
Score(Q,d)=α·ScoreI(Q,d)+(1-α)·ScoreV(Q,d)
其中,α的值域为[0,1],其计算方法如下:
S4.4、计算问句与每篇文本段的加权相似度,得到相似度最高的top-k个候选文本段Dcand
8.根据权利要求1所述的一种基于大语言模型的通用型文档问答系统,其特征在于,采用权利要求1至7任意一项所述的通用型文档问答实现方法,包括:
文档解析模块,用于将不同格式的文档解析成纯文本格式的文档集;
文档切分模块,用于将所述文档集分成语义完整不冗余的文本段集合D;
文本段索引构建模块,用于构建倒排索引库IndexS和向量索引库IndexV;
检索召回模块,用于对用户的问句在所述倒排索引库和所述向量索引库进行检索,使用动态加权相似度的方式计算所述问句与所述文本段集合的相似度,得到最相关的top-k个候选文本段Dcand;
答案生成模块,用于将所述问句和所述候选文本段构建Prompt模板,将Prompt模板输入至大模型中进行答案的生成。
9.一种电子设备,其特征在于,所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行权利要求1至7中任意一项所述的通用型文档问答实现方法。
10.一种存储介质,其特征在于,所述存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现权利要求1至7中任意一项所述的通用型文档问答实现方法。
CN202310995639.7A 2023-08-08 2023-08-08 一种通用型文档问答实现方法、系统、设备及存储介质 Pending CN116881425A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310995639.7A CN116881425A (zh) 2023-08-08 2023-08-08 一种通用型文档问答实现方法、系统、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310995639.7A CN116881425A (zh) 2023-08-08 2023-08-08 一种通用型文档问答实现方法、系统、设备及存储介质

Publications (1)

Publication Number Publication Date
CN116881425A true CN116881425A (zh) 2023-10-13

Family

ID=88271546

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310995639.7A Pending CN116881425A (zh) 2023-08-08 2023-08-08 一种通用型文档问答实现方法、系统、设备及存储介质

Country Status (1)

Country Link
CN (1) CN116881425A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117171333A (zh) * 2023-11-03 2023-12-05 国网浙江省电力有限公司营销服务中心 一种电力文件问答式智能检索方法及系统
CN117520523A (zh) * 2023-12-29 2024-02-06 中邮消费金融有限公司 数据处理方法、装置、设备及存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117171333A (zh) * 2023-11-03 2023-12-05 国网浙江省电力有限公司营销服务中心 一种电力文件问答式智能检索方法及系统
CN117520523A (zh) * 2023-12-29 2024-02-06 中邮消费金融有限公司 数据处理方法、装置、设备及存储介质
CN117520523B (zh) * 2023-12-29 2024-03-29 中邮消费金融有限公司 数据处理方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN110399457B (zh) 一种智能问答方法和系统
CN110502621B (zh) 问答方法、问答装置、计算机设备及存储介质
CN110442760B (zh) 一种问答检索系统的同义词挖掘方法及装置
CN111259631B (zh) 一种裁判文书结构化方法及装置
CN112035730B (zh) 一种语义检索方法、装置及电子设备
WO2021146831A1 (zh) 实体识别的方法和装置、建立词典的方法、设备、介质
CN116881425A (zh) 一种通用型文档问答实现方法、系统、设备及存储介质
US20220405484A1 (en) Methods for Reinforcement Document Transformer for Multimodal Conversations and Devices Thereof
CN112581327B (zh) 基于知识图谱的法律推荐方法、装置和电子设备
CN113761890B (zh) 一种基于bert上下文感知的多层级语义信息检索方法
CN107844531B (zh) 答案输出方法、装置和计算机设备
Hassani et al. LVTIA: A new method for keyphrase extraction from scientific video lectures
CN113157885A (zh) 一种面向人工智能领域知识的高效智能问答系统
CN111859950A (zh) 一种自动化生成讲稿的方法
CN112800205B (zh) 基于语义变化流形分析获取问答相关段落的方法、装置
Quemy et al. ECHR-OD: On building an integrated open repository of legal documents for machine learning applications
CN117152770A (zh) 一种面向手写输入的书写能力智能评测方法及系统
CN111881695A (zh) 一种审计知识的检索方法及装置
Wang et al. A BERT-based named entity recognition in Chinese electronic medical record
CN114722774B (zh) 数据压缩方法、装置、电子设备及存储介质
CN115344668A (zh) 一种多领域与多学科科技政策资源检索方法及装置
CN113761104A (zh) 知识图谱中实体关系的检测方法、装置和电子设备
CN113111660A (zh) 数据处理方法、装置、设备和存储介质
Hu et al. Corpus of Carbonate Platforms with Lexical Annotations for Named Entity Recognition.
Das et al. Incorporating domain knowledge to improve topic segmentation of long MOOC lecture videos

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication