CN117435717A - 一种匹配用户问题语料的方法 - Google Patents
一种匹配用户问题语料的方法 Download PDFInfo
- Publication number
- CN117435717A CN117435717A CN202311208130.XA CN202311208130A CN117435717A CN 117435717 A CN117435717 A CN 117435717A CN 202311208130 A CN202311208130 A CN 202311208130A CN 117435717 A CN117435717 A CN 117435717A
- Authority
- CN
- China
- Prior art keywords
- corpus
- content
- title
- chapter
- question
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 239000013598 vector Substances 0.000 claims abstract description 63
- 230000011218 segmentation Effects 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 6
- 229930012538 Paclitaxel Natural products 0.000 description 7
- 229960001592 paclitaxel Drugs 0.000 description 7
- RCINICONZNJXQF-MZXODVADSA-N taxol Chemical compound O([C@@H]1[C@@]2(C[C@@H](C(C)=C(C2(C)C)[C@H](C([C@]2(C)[C@@H](O)C[C@H]3OC[C@]3([C@H]21)OC(C)=O)=O)OC(=O)C)OC(=O)[C@H](O)[C@@H](NC(=O)C=1C=CC=CC=1)C=1C=CC=CC=1)O)C(=O)C1=CC=CC=C1 RCINICONZNJXQF-MZXODVADSA-N 0.000 description 7
- 241001465754 Metazoa Species 0.000 description 6
- 238000012360 testing method Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 230000010534 mechanism of action Effects 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 239000003814 drug Substances 0.000 description 3
- 210000004185 liver Anatomy 0.000 description 3
- 230000004060 metabolic process Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 229940079593 drug Drugs 0.000 description 2
- 210000001161 mammalian embryo Anatomy 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 231100000419 toxicity Toxicity 0.000 description 2
- 230000001988 toxicity Effects 0.000 description 2
- 231100000027 toxicology Toxicity 0.000 description 2
- 206010055690 Foetal death Diseases 0.000 description 1
- 208000000857 Hepatic Insufficiency Diseases 0.000 description 1
- 241000700159 Rattus Species 0.000 description 1
- 208000001647 Renal Insufficiency Diseases 0.000 description 1
- 206010074268 Reproductive toxicity Diseases 0.000 description 1
- 238000010521 absorption reaction Methods 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 210000000941 bile Anatomy 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 210000003608 fece Anatomy 0.000 description 1
- 210000003754 fetus Anatomy 0.000 description 1
- 210000001035 gastrointestinal tract Anatomy 0.000 description 1
- 230000010224 hepatic metabolism Effects 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 231100001046 intrauterine death Toxicity 0.000 description 1
- 210000003734 kidney Anatomy 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000000144 pharmacologic effect Effects 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 239000012925 reference material Substances 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 231100000372 reproductive toxicity Toxicity 0.000 description 1
- 230000007696 reproductive toxicity Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/258—Heading extraction; Automatic titling; Numbering
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Human Computer Interaction (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种匹配用户问题语料的方法,包括以下步骤:获取用户提问的问题文本,对所述问题文本进行问题向量化,生成问题向量;根据问题向量,在标题向量库进行近似度搜索,获取最近似的N条语料标题和对应的内容标识;根据内容标识从语料库提取语料信息构成模型语料信息,语料信息包括:文件内容;将模型语料信息发送给语言模型,输出问题文本对应的回复答案。根据上述技术方案,可以适应用户提问的多种场景变化,准确地把用户提问和知识库里的知识内容匹配起来,提高用户提问与知识库的关联准确性和全面性。
Description
技术领域
本发明涉及人工智能技术领域,具体而言,涉及一种匹配用户问题语料的方法。
背景技术
当前的语言大模型在自然语言处理领域取得了很大的进展,但是它们也存在一些限制和缺陷。一般来说,这类模型是通过大量的数据进行训练得到的,因此它们的回答往往是基于已有的知识和样本,而对于未知或者专业领域的知识盲区,这些模型可能会出现回答错误或者无法回答的情况。单纯依靠语言大模型输出回答可能会出现幻觉,导致用户得到的答案不准确或者不完整。随着语言大模型参数量的不断增加,其阅读理解能力也在逐渐提高,已经能够在提示工程的帮助下,回答知识盲区的问题。知识库可以将垂直领域的知识进行整合,形成一个结构化的知识库,并通过提示工程使得语言大模型能理解并运用这些知识来回答用户的提问。
一般情况下,知识库的结构为常见问题标题向量与答案一一对应,实际应用中,由于用户的语言习惯不同,不同的人对同一件事情的提问的表达用词也会不同,因此,用户实际提出的问题与知识库的问题标题存在差异,在提示工程中将用户问题和知识库进行关联时,如果直接将用户提问生成向量,去知识库进行检索关联,可能会因问题标题与实际提问的向量存在偏差太大而匹配不到答案;而如果从问题答案中提取关键词后生成向量,又不能适应用户提问的多种场景变化。
在此情况下,需要一种匹配用户问题语料的方案,准确地把用户提问和知识库里的知识内容匹配起来,提高用户提问与知识库的关联准确性和全面性。
发明内容
为实现上述目的,本申请提供了一种匹配用户问题语料的方法,包括以下步骤:
获取用户提问的问题文本,对问题文本进行问题向量化,生成问题向量;
根据问题向量,在标题向量库进行近似度搜索,获取最近似的N条语料标题和对应的内容标识;
根据内容标识从语料库提取语料信息构成模型语料信息,语料信息包括:文件内容;
将模型语料信息发送给语言模型,输出问题文本对应的回复答案。
进一步的,语料信息还包括内关联属性ID和外关联属性;
其中,内关联属性ID为语料库的文件标识,根据内关联属性ID获取内关联属性ID对应的文件内容;
进一步的,模型语料信息还包括内关联属性ID对应的文件内容和外关联属性。
其中,语料库包括文件标识、文件内容、内关联属性ID、外关联属性;
语料库的数据来源包括PDF文件;
将PDF文件的内容导入语料库的方法包括:获取PDF文档内容作为原始内容;对所述原始内容按章节进行切分,生成多份独立的章节内容,每一份所述章节内容对应的标题为章节标题,为每一份章节内容生成唯一标识为内容标识;
将章节内容、内容标识导入语料库,对应语料库的文件内容、文件标识。
其中,将章节内容、内容标识导入语料库时,判断章节内容中是否存在引用章节标题,如果存在,获取引用章节标题对应的内容标识作为内关联属性标识,将内关联属性标识导入语料库,对应语料库中的内关联属性ID;其中,内关联属性ID可以为空,也可以为多个内容标识。
进一步的,将章节内容、内容标识导入语料库时,判断章节内容中是否有业务关联关键词,如果存在,将关键词导入语料库,对应语料库中的外关联属性;其中,所述外关联属性可以为空,也可以为多个词语。
其中,标题向量库包括语料标题向量、文件标识;
标题向量库的数据来源为章节内容、章节标题和内容标识;
从数据来源中生成标题向量,将标题向量与章节内容对应的内容标识存储入标题向量库,对应语料标题和文件标识;
其中,标题向量包括章节标题进行标题向量化操作生成的数据。
进一步的,标题向量还包括:从章节内容中提炼内容标题,对内容标题进行标题向量化操作生成的数据。
其中,问题向量化与标题向量化操作采用统一的处理模型,包括:text2vec-large-chinese模型。
其中,对原始内容按章节进行切分指根据文档目录来切分,包括:
采用正则表达式获取文档目录的标题列表以及层次关系;
获取文档删除文档目录后剩余的部分,从开头按文档目录的顺序开始定位大标题和小标题的位置,再按照标题位置对文档进行切分,由此获得切分的结果。
根据本发明,可以适应用户提问的多种场景变化,准确地把用户提问和知识库里的知识内容匹配起来,提高用户提问与知识库的关联准确性和全面性。
附图说明
图1是根据本发明实施例提供的匹配用户问题语料的方法步骤图;
图2是根据本发明实施例提供的原始内容构成语料库和标题向量库的转换示意图;
图3是根据本发明实施例提供的原始内容章节标题示意图;
图4是根据本发明实施例提供的匹配用户问题语料的方法流程图。
具体实施方式
本发明从知识库的来源入手,从PDF文件等原始文件拆分信息构建语料库,寻找原始文件拆分出的信息之间的关系,通过内关联属性将不同的章节内容建立关联,同时从章节内容中提取关键词,作为外关联属性,结合以上内关联属性与外关联属性,以丰富每一个用户问题的语料内容;在语料库的基础上,建立标题向量库,通过标题向量库,完善用户所提问题的覆盖面;通过标题向量库与语料库的结合,为用户的提问相关的信息内容建立关联,最终提供内容完整的语料,并将此语料用于语言大模型的进一步训练。
下面结合说明书附图对本发明的具体实现方式做一详细描述。
本发明提供的匹配用户问题语料的方法,基于从PDF文件等原始文件拆分信息构建的标题向量库和语料库,为匹配完整、准确的语料进行数据准备,从原始文件到标题向量库和语料库的数据转换过程如图2所示:
首先,原始文件为其内容可作为解答用户提问的参考资料,其格式支持PDF、图片、word文档等。例如,针对PDF文件进行操作时,将原始文件进行切分后生成一批独立的文档,切分边界根据项目需求而定,例如文档目录可天然的将文本按照不同的功能内容划分边界,因此采用如图3所示的文档目录来内容切分,切分步骤如下:
1)采用正则表达式获取整个文档目录的标题列表以及层次关系,如图3中的范例,第一章有6个小节,第二章有4个小节,如此类推;
2)获取文档删除文档目录后剩余的部分,从开头按所述文档目录的顺序开始定位大标题和小标题的位置(字符串匹配),再按照标题位置(标题的首尾字符在文档中的index)对文档进行切分,由此获得切分的结果,即:一批独立文档(doc)。
切分后,从原始文件中提取出来章节标题和章节内容,在此基础上进行步骤S200的操作,即为章节标题指定内容标识。内容标识为章节内容,也就是每一份独立文档对应的唯一的标识。
在此步骤完成后,从原始文件中获取章节标题、章节内容和内容标识对应的内容在缓存或者其他载体进行临时存储,便于后续语料库和标题向量库的数据导入。
语料库的结构包括文件标识、文件内容、内关联属性ID、外关联属性;
如步骤S210所示,首先将章节内容、内容标识导入语料库,对应语料库的文件内容、文件标识;其中,语料库结构中的内关联属性ID可以为空,也可以为多个内容标识;外关联属性也可以为空,也可以为多个词语。
将章节内容、内容标识导入语料库时,判断章节内容中是否存在引用章节标题的情况,如果存在,获取引用章节标题对应的内容标识作为内关联属性标识,将该内关联属性标识导入语料库,对应该段章节内容、内容标识在语料库中对应的内关联属性ID;
例如:
其中章节标题为“作用机制和动物试验结果”,内容标识为“b9c7d8f1-3a4b-4f2a-8bea-3f7f7c2d9e32”对应的信息的内关联属性ID中存储“药理毒理”的章节对应的内容标识“7b3b2b8f-5b7a-4a85-8f3e-5e0c171e1e2a”。
另一方面,判断章节内容中是否有业务关联关键词,如果存在,将关键词导入语料库,对应内容标识在语料库中对应的外关联属性。
在本发明中,用命名实体识别(NER)从章节内容中提取疾病、药品实体词。
例如,从“根据紫杉醇的作用机制和动物试验结果,妊娠妇女使用本品会对胎儿造成损害。动物生殖毒性试验,妊娠大鼠按体表面积给予低于人体推荐最大剂量的本品时,出现了胚胎-胎儿毒性,包括胚胎宫内死亡、药物吸收的增加,活胎数量减少和畸形(见【药理毒理】)”中提出的关键词为“紫杉醇”,至此,该条记录一共4个属性,文件标识,文件内容,内关联属性ID,外关联属性。如下表所示:
标题向量库包括语料标题向量、文件标识;
标题向量库的数据来源临时存储的章节内容、章节标题和内容标识;
如图2中步骤S220所示,从章节内容中提炼内容标题,对内容标题向量化生成标题向量,将标题向量与章节内容对应的内容标识存储入标题向量库,对应语料标题和文件标识;其中,存入标题向量还包括对所述章节标题进行向量化生成的数据。
在上例中提供的两段章节内容,其章节标题分别为:作用机制和动物试验结果、药理毒理;而从标题中看不出来是针对什么药物的作用机制和动物试验结果、药理毒理。因此,在本发明中,还提供了从章节内容中提炼内容标题的方案,例如“紫杉醇蛋白结合率89%~98%,主要在肝脏代谢,随胆汁进入肠道,经粪便排出体外(>90%)。经肾清除只占总清除的1%~8%,在肝肾功能不全的病人体内代谢尚不明确”可提炼出标题为“紫杉醇在肝脏代谢”,与其章节标题“药理毒理”相结合,可以完善该内容可适应的问题范围。
将章节标题和内容标题进行标题向量化的操作,在本发明中采用text2vec-large-chinese模型文本转向量(1000维)实现。
从章节内容中提炼内容标题的方法,本发明中提供了两种方式:神经网络模型文本生成标题方式与语言大模型的阅读理解方式;在实际应用中,这两种方式可根据环境选择。
1)神经网络模型文本生成标题方式,本案例采用T5模型,并人工标注一批章节内容对应的内容标题,章节内容和人工标注的标题共同作为训练T5模型的数据集,其中章节内容作为T5模型的输入prompt,人工标注的标题作为T5模型的输出。训练好的T5模型具备了输入答案,倒推出标题的能力。训练和推理时prompt模板如下:
疾病:{disease_name},内容:{章节内容},标题: |
其中:{disease_name}、{章节内容}为输入内容,在此模板下输出标题;
2)语言大模型的阅读理解方式,可采用语言大模型,prompt模板如下:
以上两种方式都可以内容标题,区别是T5一次只能生成一个标题,语言大模型一次可以生成多个,例子如下:
每个doc内容生成内容标题的数量,可根据实际需求设定,一般为一至五条。
要注意的是,语料库中的文件内容并没有对应文件内容的标题,而是通过语料库的文件标识与标题向量库的文件标识进行关联,将语料库中的一个文件内容与标题向量库中的多个标题向量对应,因此,针对用户提的问题,只要其向量化后,与标题向量库中的多个标题向量近似,就可以获得匹配的文件内容。如上表中范例,该段文件内容的标题为“作用机制和动物试验结果”,而用户提的问题如果与该标题并不近似的情况下,只需要与提炼出的多个标题中的一个近似,就可以为用户匹配到该条文件内容。
当标题向量库和语料库完成后,即可实现本发明提供的匹配语料的方法。
图1是本发明提供的匹配用户问题语料的方法步骤图,如图所示,包括以下步骤:
S100:获取用户提问的问题文本,对问题文本进行问题向量化,生成问题向量;
问题向量化处理与标题向量化的处理方式一致,采用text2vec-large-chinese模型将文本转换为问题向量。
S110:根据问题向量,在标题向量库进行近似度搜索,获取最近似的N条语料标题向量对应的内容标识;
近似度搜索的实现可采用cos向量相似度公式进行计算,计算结果返回的条数N可根据实际情况设定,例如通常将N设定为5以内的数值。
S120:根据内容标识从语料库提取语料信息构成模型语料信息,语料信息包括:文件内容、内关联属性ID和外关联属性;
由于语料库中的内关联属性ID实际为语料库的文件标识,根据内关联属性ID获取其对应的文件内容;
外关联属性为文件内容的关键词,即概念性文本内容,例如上例中的“紫杉醇”。
将文件内容和内关联属性ID对应的文件内容、关键词组合生成模型语料信息,用于语言大模型的输入提示语(prompt),以便语言大模型能够阅读理解prompt中的内容并输出答案给用户
S130:将所述模型语料信息发送给语言模型,输出所述问题文本对应的回复答案。
本发明对实现用户问题语料的匹配提供了完整的方案,即,用于向量匹配的标题向量库的结构设计与数据生成方案、用于最终生成训练语料的语料库的结构设计与数据生成方案、响应用户提问的处理方案;三者协同的过程如图4所示:
本发明涉及的数据基础为标题向量库和语料库,其数据来源统一,支持PDF文件等;
本发明要解决的问题:处理用户的提问,匹配用户问题的语料,处理用户提问的过程包括步骤S410,对用户提问的向量化操作获取问题向量,执行步骤S420执行文档相似度搜索,并获取关联的语料数据,组合成语料数据,用于下一步,从语言大模型获取答案。在以上过程中,执行步骤S420时与本发明涉及的数据基础进行交互:在步骤S421时向标题向量库发起查找与问题向量最近似的请求,通过步骤S422获得来自标题向量库返回的查询结果;通过步骤S423组织文件标识的提取请求,由步骤S424向语料库查询对应信息,并由通过步骤S425从语料库获得查询的语料结果,要发明中涉及的语料结果支持来自原始文件的章节内容、章节内容引用的标题对应的其他章节内容、章节内容中涉及的概念性的关键词;在实际应用中,可通过步骤S423,在向语料库提起请求信息中灵活实现对语料结果的类型、数量的选择。
在本发明针对匹配用户问题语料,获取最佳模型语料提供了一套完整的方案,从搭建知识库的角度,采用内关联属性ID、外关联属性将垂直领域的知识进行整合,形成一个结构化的网状关联的知识库;从匹配的角度,建立与用户问题贴合度最高的多种标题,通过向量近似实现问题匹配;从语料准备的角度,将与用户的关联的、全面的信息提供给语言模型。通过这样一个完整的方案,可以适应用户提问的多种场景变化,准确地把用户提问和知识库里的知识内容匹配起来,提高用户提问与知识库的关联准确性和全面性。
以上公开的仅为本发明的几个具体实施例,但是,本发明并非局限于此,任何本领域的技术人员能思之的变化都应落入本发明的保护范围。
Claims (9)
1.一种匹配用户问题语料的方法,其特征在于,包括以下步骤:
获取用户提问的问题文本,对所述问题文本进行问题向量化,生成问题向量;
根据所述问题向量,在标题向量库进行近似度搜索,获取最近似的N条语料标题和对应的内容标识;
根据所述内容标识从语料库提取语料信息构成模型语料信息,所述语料信息包括:文件内容;
将所述模型语料信息发送给语言模型,输出所述问题文本对应的回复答案。
2.根据权利要求1所述的匹配用户问题语料的方法,其特征在于,所述语料信息还包括内关联属性ID和外关联属性;
其中,所述内关联属性ID为语料库的文件标识,根据所述内关联属性ID获取内关联属性ID对应的文件内容;
所述模型语料信息还包括内关联属性ID对应的文件内容和外关联属性。
3.根据权利要求1所述的匹配用户问题语料的方法,其特征在于,所述语料库包括文件标识、文件内容、内关联属性ID、外关联属性;
所述语料库的数据来源包括PDF文件;
将所述PDF文件的内容导入所述语料库的方法包括:获取PDF文档内容作为原始内容;对所述原始内容按章节进行切分,生成多份独立的章节内容,每一份所述章节内容对应的标题为章节标题,为所述每一份所述章节内容生成唯一标识为内容标识;
将所述章节内容、内容标识导入语料库,对应所述语料库的文件内容、文件标识。
4.根据权利要求3所述的匹配用户问题语料的方法,其特征在于,所述将所述章节内容、内容标识导入语料库时,判断所述章节内容中是否存在引用章节标题,如果存在,获取所述引用章节标题对应的内容标识作为内关联属性标识,将所述内关联属性标识导入所述语料库,对应语料库中的内关联属性ID;其中,所述内关联属性ID可以为空,也可以为多个内容标识。
5.根据权利要求3所述的匹配用户问题语料的方法,其特征在于,所述将所述章节内容、内容标识导入语料库时,判断所述章节内容中是否有业务关联关键词,如果存在,将所述关键词导入所述语料库,对应语料库中的外关联属性;其中,所述外关联属性可以为空,也可以为多个词语。
6.根据权利要求3所述的匹配用户问题语料的方法,其特征在于,所述标题向量库包括语料标题向量、文件标识;
所述标题向量库的数据来源为章节内容、章节标题和内容标识;
从所述数据来源中生成标题向量,将所述标题向量与所述章节内容对应的内容标识存储入标题向量库,对应语料标题和文件标识;
其中,所述标题向量包括章节标题进行标题向量化操作生成的数据。
7.根据权利要求6所述的匹配用户问题语料的方法,其特征在于,所述标题向量还包括:从章节内容中提炼内容标题,对所述内容标题执行标题向量化操作生成的数据。
8.根据权利要求8所述的匹配用户问题语料的方法,其特征在于,所述问题向量化与所述标题向量化采用统一的处理模型,包括:text2vec-large-chinese模型。
9.根据权利要求3所述的匹配用户问题语料的方法,其特征在于,所述对所述原始内容按章节进行切分指根据文档目录来切分,包括:
采用正则表达式获取所述文档目录的标题列表以及层次关系;
获取文档删除文档目录后剩余的部分,从开头按所述文档目录的顺序开始定位大标题和小标题的位置,再按照标题位置对文档进行切分,由此获得切分的结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311208130.XA CN117435717A (zh) | 2023-09-18 | 2023-09-18 | 一种匹配用户问题语料的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311208130.XA CN117435717A (zh) | 2023-09-18 | 2023-09-18 | 一种匹配用户问题语料的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117435717A true CN117435717A (zh) | 2024-01-23 |
Family
ID=89552397
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311208130.XA Pending CN117435717A (zh) | 2023-09-18 | 2023-09-18 | 一种匹配用户问题语料的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117435717A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117725189A (zh) * | 2024-02-18 | 2024-03-19 | 国家超级计算天津中心 | 专业领域的生成式问答方法及电子设备 |
-
2023
- 2023-09-18 CN CN202311208130.XA patent/CN117435717A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117725189A (zh) * | 2024-02-18 | 2024-03-19 | 国家超级计算天津中心 | 专业领域的生成式问答方法及电子设备 |
CN117725189B (zh) * | 2024-02-18 | 2024-04-16 | 国家超级计算天津中心 | 专业领域的生成式问答方法及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100533810B1 (ko) | 백과사전 질의응답 시스템의 지식베이스 반자동 구축 방법 | |
CN112035637A (zh) | 医学领域意图识别方法、装置、设备及存储介质 | |
CN109271505A (zh) | 一种基于问题答案对的问答系统实现方法 | |
CN107766483A (zh) | 一种基于知识图谱的交互式问答方法及系统 | |
CN112650840A (zh) | 一种基于知识图谱推理的医疗智能问答处理方法及系统 | |
CN111813957A (zh) | 基于知识图谱的医疗导诊方法和可读存储介质 | |
CN111475623A (zh) | 基于知识图谱的案件信息语义检索方法及装置 | |
CN103886034A (zh) | 一种建立索引及匹配用户的查询输入信息的方法和设备 | |
CN105930452A (zh) | 一种识别自然语言的智能应答方法 | |
CN109471949B (zh) | 一种宠物知识图谱的半自动化构建方法 | |
CN106446018B (zh) | 基于人工智能的查询信息处理方法和装置 | |
CN109308321A (zh) | 一种知识问答方法、知识问答系统及计算机可读存储介质 | |
CN110929498B (zh) | 一种短文本相似度的计算方法及装置、可读存储介质 | |
CN106502991B (zh) | 出版物处理方法和装置 | |
CN117435717A (zh) | 一种匹配用户问题语料的方法 | |
CN114036281B (zh) | 基于知识图谱的柑橘管控问答模块构建方法及问答系统 | |
CN116303981B (zh) | 一种农业社区知识问答方法、装置及存储介质 | |
CN112328766A (zh) | 一种基于路径搜索的知识图谱问答方法和装置 | |
CN111402092A (zh) | 一种基于多层次语义解析的法律法规检索系统 | |
CN110675962A (zh) | 一种基于机器学习和文本规则的中药药理作用识别方法及系统 | |
CN111104437A (zh) | 基于对象模型的试验数据统一检索方法和系统 | |
CN114003709A (zh) | 一种基于问句匹配的智能问答系统和方法 | |
CN109766442A (zh) | 一种对用户笔记进行分类的方法及系统 | |
CN117743526A (zh) | 一种基于大语言模型和自然语言处理的表格问答方法 | |
CN117407502A (zh) | 问答对抽取方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |