CN117609471A - 文档召回方法、装置及电子设备 - Google Patents
文档召回方法、装置及电子设备 Download PDFInfo
- Publication number
- CN117609471A CN117609471A CN202311736016.4A CN202311736016A CN117609471A CN 117609471 A CN117609471 A CN 117609471A CN 202311736016 A CN202311736016 A CN 202311736016A CN 117609471 A CN117609471 A CN 117609471A
- Authority
- CN
- China
- Prior art keywords
- document
- matching score
- field
- information
- field information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 74
- 239000013598 vector Substances 0.000 claims description 44
- 239000003607 modifier Substances 0.000 claims description 18
- 238000006243 chemical reaction Methods 0.000 claims description 13
- 230000011218 segmentation Effects 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 9
- 238000013519 translation Methods 0.000 claims description 5
- 230000000694 effects Effects 0.000 description 14
- 238000012545 processing Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 8
- 238000004458 analytical method Methods 0.000 description 6
- 230000003993 interaction Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000003058 natural language processing Methods 0.000 description 3
- 238000003062 neural network model Methods 0.000 description 2
- 235000002198 Annona diversifolia Nutrition 0.000 description 1
- RWSOTUBLDIXVET-UHFFFAOYSA-N Dihydrogen sulfide Chemical compound S RWSOTUBLDIXVET-UHFFFAOYSA-N 0.000 description 1
- 241000282842 Lama glama Species 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供一种文档召回方法、装置及电子设备,文档召回方法包括:确定第一字段信息,所述第一字段信息对应第一语言;将所述第一字段信息转换为第二字段信息,所述第二字段信息对应第二语言;响应接收到的用户查询信息,计算所述用户查询信息与所述第一字段信息的第一匹配得分以及所述用户查询信息与所述第二字段信息的第二匹配得分;根据所述第一匹配得分与所述第二匹配得分,确定预设数量的目标字段信息作为召回文档。上述方法能够提高文档召回的准确性。
Description
技术领域
本申请属于计算机技术领域,涉及数据处理技术,尤其涉及一种文档召回方法、装置及电子设备。
背景技术
随着互联网技术的高速发展,网络信息数据指数式增长。在信息大数据时代,在面对海量的信息时,如何迅速准确地获取所需要的信息是用户的迫切需求。在垂直应用领域,例如电商、医疗、政务等,都开始引入智能问答系统以缓解人工客服压力,这些智能问答系统根据用户提供的问题,在大规模的文本库中搜索并召回最相关的内容,并将其聚合;之后将聚合后的召回文档与用户提供的问题输入至大型语言模型中,得到答案并返回给用户。
然而,相关技术中,多数根据用户提供的问题中的关键词与文本库中大量文本的相关度确定召回文档,使得召回文档的准确性较低,导致智能问答的准确性较低。
发明内容
本申请实施例提供了一种文档召回方法、装置及电子设备,以解决召回文档的准确性较低的问题。
本申请实施例第一方面提供一种文档召回方法,所述方法包括:确定第一字段信息,所述第一字段信息对应第一语言;将所述第一字段信息转换为第二字段信息,所述第二字段信息对应第二语言;响应接收到的用户查询信息,计算所述用户查询信息与所述第一字段信息的第一匹配得分以及所述用户查询信息与所述第二字段信息的第二匹配得分;根据所述第一匹配得分与所述第二匹配得分,确定预设数量的目标字段信息,作为召回文档。
进一步地,在本申请实施例提供的上述文档召回方法中,所述确定第一字段信息,包括:从预设文本中确定初始文档内容与多个初始字段内容;对所述初始文档内容进行句级分割,得到目标文档内容;对所述多个初始字段内容进行句级分割,得到多个目标字段内容;组合所述目标字段内容与所述多个目标文档内容,得到所述第一字段信息。
进一步地,在本申请实施例提供的上述文档召回方法中,所述从预设文本中确定初始文档内容与多个初始字段内容,包括:若所述预设文本中存在第一关键词,则根据所述第一关键词与文档内容的第一索引关系,确定所述预设文本中与所述第一关键词对应的文档内容作为所述初始文档内容;若所述预设文本中存在多个第二关键词,则根据每个第二关键词与字段内容的第二索引关系,确定所述预设文本中与所述每个第二关键词对应的字段内容,得到所述多个初始字段内容。
进一步地,在本申请实施例提供的上述文档召回方法中,所述将所述第一字段信息转换为第二字段信息,包括:确定所述第一字段信息中每一句子的主从关系与修饰关系;根据所述主从关系与所述修饰关系确定所述每一句子中词语的词性权重;根据所述词性权重调用预设的信息转换模型处理所述第一字段信息,得到所述第二字段信息。
进一步地,在本申请实施例提供的上述文档召回方法中,所述计算所述用户查询信息与所述第一字段信息的第一匹配得分,包括:计算所述用户查询信息与所述目标文档内容的文档匹配得分;计算所述用户查询信息与每个目标字段内容的字段匹配得分;确定所述文档匹配得分对应的第一权重与所述字段匹配得分对应的第二权重;根据所述第一权重与所述文档匹配得分,以及所述第二权重与所述字段匹配得分,确定所述第一匹配得分。
进一步地,在本申请实施例提供的上述文档召回方法中,所述确定所述文档匹配得分对应的第一权重与所述字段匹配得分对应的第二权重,包括:确定所述目标文档内容对应的第一召回速率与第一召回准确率;根据所述第一召回速率与所述第一召回准确率确定所述目标文档内容的第一召回率;确定所述目标字段内容对应的第二召回速率与第二召回准确率;根据所述第二召回速率与所述第二召回准确率确定所述目标字段内容的第二召回率;根据所述第一召回率与所述第二召回率确定所述文档匹配得分对应的第一权重以及所述字段匹配得分对应的第二权重。
进一步地,在本申请实施例提供的上述文档召回方法中,所述计算所述用户查询信息与所述目标文档内容的文档匹配得分,包括:对所述用户查询信息进行向量化处理,得到用户查询向量;对所述目标文档内容进行向量化处理,得到目标文档向量;计算所述用户查询向量与所述目标文档向量间的距离值,得到所述文档匹配得分。
进一步地,在本申请实施例提供的上述文档召回方法中,所述根据所述第一匹配得分与所述第二匹配得分,确定预设数量的目标字段信息,作为召回文档,包括:确定所述第一匹配得分对应的第三权重以及所述第二匹配得分对应的第四权重;根据所述第一匹配得分与所述第三权重,以及所述第二匹配得分与所述第四权重,确定所述第一字段信息和/或所述第二字段信息对应的目标匹配得分;根据所述目标匹配得分对所述第一字段信息和/或所述第二字段信息进行排序,并选取所述预设数量的第一字段信息和/或所述第二字段信息生成所述召回文档。
本申请实施例第二方面还提供一种文档召回装置,所述装置包括:字段信息确定模块,用于确定第一字段信息,所述第一字段信息为第一语言;字段信息翻译模块,用于将所述第一字段信息翻译为第二语言对应的第二字段信息;匹配得分计算模块,用于响应接收用户查询信息,计算所述用户查询信息与所述第一字段信息对应的第一匹配得分以及所述用户查询信息与所述第二字段信息对应的第二匹配得分;召回文档确定模块,用于根据所述第一匹配得分与所述第二匹配得分,确定预设数量的目标字段信息,作为召回文档。
本申请实施例第三方面还提供一种电子设备,所述电子设备包括控制器与存储器,所述控制器用于执行所述存储器中存储的计算机程序时实现上述任意一项所述的文档召回方法。
本申请实施例第四方面还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被控制器执行时实现上述文档召回方法。
本申请实施例提供的上述文档召回方法,将第一语言的第一字段信息转换为第二语言的第二字段信息;响应接收到的用户查询信息,计算所述用户查询信息与第一字段信息的第一匹配得分以及用户查询信息与第二字段信息的第二匹配得分;根据第一匹配得分与第二匹配得分,确定预设数量的目标字段信息,作为召回文档。本申请实施例将第一语言的第一字段信息转换为第二语言的第二字段信息,通过扩充与用户查询信息匹配的数据源,并根据用户查询信息与第一字段信息的第一匹配得分以及用户查询信息与第二字段信息的第二匹配得分确定字段信息的综合匹配评分,提高综合匹配得分确定的准确性,从而提高文档召回的准确性。
附图说明
图1是本申请实施例提供的一种文档召回方法的结构图。
图2是本申请实施例提供的一种文档召回方法的流程图。
图3是本申请实施例提供的一种第一字段信息的确定流程图。
图4是本申请实施例提供的一种第二字段信息的确定流程图。
图5是本申请实施例提供的一种第一匹配得分的计算流程图。
图6是本申请实施例提供的一种权重信息的确定流程图。
图7是本申请实施例提供的一种文档匹配得分的确定流程图。
图8是本申请实施例提供的一种召回文档的确定流程图。
图9是本申请实施例提供的文档召回装置的结构示意图。
具体实施方式
需要说明的是,本申请的说明书和权利要求书及附图中的术语“第一”、“第二”是用于区别类似的对象,而不是用于描述特定的顺序或先后次序。
另外需要说明的是,本申请实施例中公开的方法或流程图所示出的方法,包括用于实现方法的一个或多个步骤,在不脱离权利要求的范围的情况下,多个步骤的执行顺序可以彼此互换,其中某些步骤也可以被删除。
下面将结合附图对一些实施例做出说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
结合图1说明本申请实施例的文档召回方法的结构图。如图1所示,电子设备3包括存储器31、至少一个控制器32及至少一条通信总线33,控制器32用于执行存储器31中存储的计算机程序时实现文档召回方法。可以理解,图1示出的电子设备的结构并不构成本申请实施例的限定,既可以是总线型结构,也可以是星形结构,电子设备3还可以包括比图示更多或更少的其他硬件或者软件,或者不同的部件布置。
在一实施例中,电子设备3可以通过键盘、鼠标、遥控器、触摸板或声控设备等方式实现人机交互或网络通信,例如,电子设备3可以是个人计算机、平板电脑、智能手机、数码相机等电子产品。在一实施例中,电子设备3包含用户交互页面,用户交互页面上包含信息输入组件,信息输入组件可用于接收用户输入的语音信息、文字信息或者图片信息。在智能问答场景中,当用户通过电子设备3中的用户交互界面输入用户查询信息时,电子设备3根据用户查询信息执行文档召回方法,从而得到召回文档;之后将召回文档输入至预设的大型语言模型中,得到答案,并显示在用户交互界面上。在一实施例中,智能问答场景可应用于电商、医疗以及政务等领域,示例性地,在电商领域,智能问答系统可以帮助用户快速找到想要的信息,例如,当用户在电商平台上搜索“退货政策”时,智能问答系统可以提供与“退货”相关的政策。在医疗领域,智能问答系统可以帮助患者和医生更高效地沟通,例如,患者可以通过智能问答系统向医生咨询症状、诊断、治疗方案等问题,而无需预约挂号或排队等待;且智能问答系统还可以为医生提供医学知识库,帮助他们更好地解答患者的疑问。在政务领域,智能问答系统可以帮助公众更方便地获取政府服务信息,例如,当公众需要办理身份证、驾驶证等证件时,可以通过智能问答系统查询办理流程、所需材料等信息。此外,智能问答系统还可以回答公众关于政策法规、公共服务等方面的问题,提高政务服务的透明度和便捷性。
在一些实施例中,电子设备3是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路、可编程门阵列、数字处理器及嵌入式设备等。电子设备3还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
需要说明的是,电子设备3仅为举例,其他现有的或今后可能出现的电子产品如可适应于本申请,也应包含在本申请的保护范围以内,并以引用方式包含于此。
在一些实施例中,至少一条通信总线33被设置为实现存储器31以及至少一个处理器32等之间的连接通信。
图2是本申请实施例提供的一种文档召回方法的流程图,该文档召回方法应用于电子设备。如图2所示,文档召回方法可以包括如下步骤S11-S14,根据不同的需求,该流程图中步骤的顺序可以改变,某些可以省略。
S11,确定第一字段信息,所述第一字段信息对应第一语言。
在一实施例中,在智能问答场景中,需要提前建立文本库,在文本库中,预先设定好多个文本(本申请实施例也简化称为“预设文本”),且预设文本需要持续更新。预设文本可以通过爬虫技术从多个预设渠道爬取得到,预设渠道可以是预先设置的与业务相关的渠道,例如,预设渠道可以为搜索引擎、社交媒体、各类数据库等。通过爬虫技术从上述多个预设渠道获取并解析文本,选取与业务相关的文本作为预设文本,其中,与业务相关可以包括文本中包含预设业务关键词,预设业务关键词可以根据实际需求设置,例如,在政务领域,预设业务关键词可以包括但不限于:政策、法规、身份证、驾驶证等信息。
在一实施例中,预设文本的主题可以包括标题、摘要、目录、文档等,在此不做限制,其中,标题是对文档主题简短而精确的描述,通过标题能够快速了解文档的核心内容;摘要是对文档的简洁概括,提供了文档的主要信息和结论,通过摘要能够在短时间内获取关键信息;目录是按照文档的结构层次进行排列,便于快速定位到所需的文档;文档是包含标题、摘要和其他元素(例如,目录、参考文献等)的完整内容。不同预设文本可以包含不同的主题,例如,文本库内存在预设文本A、预设文本B与预设文本C,其中,预设文本A包含标题、摘要以及文档这三类主题,预设文本B包含标题与文档这两类主题,预设文本C包含标题、摘要、目录以及文档这四类标题。
在一实施例中,获取文本库内每一预设文本以及每一预设文本对应的主题,按照主题提取预设文本的内容作为第一字段信息,承接上述实施例,预设文本A包括标题、摘要以及文档这三类主题,则第一字段信息A包括标题内容、摘要内容以及文档内容;预设文本B包含标题与文档这两类主题,则第一字段信息B包括标题内容与文档内容;预设文本C包含标题、摘要、目录以及文档这四类标题,则第一字段信息C包括标题内容、摘要内容、目录内容以及文档内容。第一语言是指第一字段信息的语言种类,例如,第一语言可以是中文,在其他实施例中,第一语言还可以是日语、德语等,在此不做限制。
S12,将所述第一字段信息转换为第二字段信息,所述第二字段信息对应第二语言。
在一实施例中,第二语言是指预先设置的使得自然语言处理(Natural LanguageProcessing,NLP)的效果相对较强的语言,例如,在大语言模型(Large Language Model,LLM)中,对英文的处理效果(例如,处理速率与处理准确性等方面)较好,则第二语言可以为英文语言,其中,大语言模型是一种人工智能模型,旨在理解和生成人类语言,大语言模型可以包括但不限于GPT-3、PaLM、Galactica以及LLaMA等。在其他实施例中,第二语言还可以是日语、德语等,在此不做限制。
在一实施例中,第二字段信息是指将第一字段信息翻译为第二语言后的字段信息。第二语言的数量可以为1个,也可以为多个。若第二语言的数量为一个,则每个第一字段信息对应的第二字段信息的数量仅为1个;若第二语言的数量为多个,则每个第一字段信息对应的第二字段信息的数量也为多个。示例性地,若存在第一字段信息A,且第一字段信息A对应的第一语言为中文,第二语言为英文,则将中文形式的第一字段信息A翻译为英文形式的第二字段信息A;若存在第一字段信息A,且第一字段信息A对应的第一语言为中文,第二语言为英文与日语,则将中文形式的第一字段信息A分别翻译为英文形式的第二字段信息A1与日语形式的第二字段信息A2。
S13,响应接收到的用户查询信息,计算所述用户查询信息与所述第一字段信息的第一匹配得分以及所述用户查询信息与所述第二字段信息的第二匹配得分。
在一实施例中,用户查询信息是指通过电子设备的用户交互界面记录的用户输入信息,用户查询信息可以为文字形式、语音形式或图片形式,本申请实施例仅以用户查询信息为文字形式为例。若用户查询信息为语音形式,则通过语音转文字的形式得到文字形式的用户查询信息;若用户查询信息为图片形式,则获取图片,通过预设图片解析模型解析该图片,得到该图片对应的属性信息,并将属性信息组合为文字形式的用户查询信息。其中,预设图片解析模型的输入数据为图片,输出数据为文字形式的属性信息。示例性地,用户输入的图片内容为文字,将该图片输入至预设图片解析模型中,得到图片内的文本信息,将该文本信息作为用户查询信息;又示例性地,用户输入的图片内容为一双红色的高跟鞋,将该图片输入至预设图片解析模型中,得到图片对应的属性信息包括商品颜色为红色,商品名称为高跟鞋,则将“红色”与“高跟鞋”进行组合,得到用户查询信息为“红色高跟鞋”。
在一实施例中,承接上述实施例,第一字段信息包括不同主题的内容,例如,第一字段信息A包括标题内容、摘要内容以及文档内容,第一匹配得分是指综合用户查询信息与第一字段信息中标题内容的标题匹配得分、用户查询信息与第一字段信息中摘要内容的摘要匹配得分以及用户查询信息与第一字段信息中文档内容的文档匹配得分得到的。其中,标题匹配得分、摘要匹配得分以及文档匹配得分可以使用BM25分数或者向量距离等方式得到,在此不做限制。本申请实施例仅以根据向量距离计算匹配得分的方式进行说明,标题匹配得分可以通过计算用户查询信息对应向量与第一字段信息中标题内容对应向量间距离值得到,摘要匹配得分可以通过计算用户查询信息对应向量与第一字段信息中摘要内容对应向量间距离值得到,文档匹配得分可以通过计算用户查询信息对应向量与第一字段信息中文档内容对应向量间距离值得到。
在一实施例中,由于第二字段信息是对第一字段信息进行翻译转换得到的,如此,第二字段信息也包括不同主题的内容,例如,第一字段信息A对应的第二字段信息A也包括标题内容、摘要内容以及文档内容。第二匹配得分是指综合用户查询信息与第二字段信息中标题内容的标题匹配得分、用户查询信息与第二字段信息中摘要内容的摘要匹配得分以及用户查询信息与第二字段信息中文档内容的文档匹配得分得到的。其中,标题匹配得分、摘要匹配得分以及文档匹配得分可以使用BM25分数或者向量距离等方式得到,在此不做限制。在一实施例中,在确定第二匹配得分之前,将用户查询信息也转换为第二语言的查询信息,以提高匹配得分计算的速率与准确性。
S14,根据所述第一匹配得分与所述第二匹配得分,确定预设数量的目标字段信息作为召回文档。
在一实施例中,根据第一匹配得分与第二匹配得分计算第一字段信息和/或第二字段信息对应的目标匹配得分,由于第二字段信息是对第一字段信息进行翻译转换得到的,如此,目标匹配得分既可以用于标识用户查询信息与第一字段信息间的相关性,也可以用于标识用户查询信息与第二字段信息间的相关性。目标匹配得分越高,用户查询信息与第一字段信息和/或第二字段信息的相关性越大;目标匹配得分越低,用户查询信息与第一字段信息和/或第二字段信息的相关性越小。
在一实施例中,大语言模型单次能够接收的文本数量有限,为保证大语言模型能够准确运行,需从文本库内选取预设数量的目标字段信息作为召回文档,输入至大语言模型中。预设数量是指预先设置的大语言模型能接受的最大召回文档的数量。在一实施例中,按照目标匹配得分将第一字段信息和/或第二字段信息进行排序,选取目标匹配得分较高的预设数量的第一字段信息和/或第二字段信息作为目标字段信息,根据选取的目标字段信息生成召回文档。
在一实施例中,目标字段信息可以为第一字段信息和/或第二字段信息,目标字段信息与用户查询信息的语言种类相同,若用户查询信息为第一语言,则目标字段信息可以为第一字段信息;若用户查询信息为第二语言,则目标字段信息可以为第二字段信息。在其他实施例中,目标字段信息还可以根据实际场景设置,例如,大语言模型指定向用户输出的语言为日语,则目标字段信息还可以为由第一字段信息或第二字段信息翻译转换后得到的日语形式的字段信息。
本申请实施例提供的上述文档召回方法,将第一语言的第一字段信息转换为第二语言的第二字段信息,通过扩充与用户查询信息匹配的数据源,并根据用户查询信息与第一字段信息的第一匹配得分以及用户查询信息与第二字段信息的第二匹配得分确定字段信息的综合匹配评分,提高综合匹配得分确定的准确性,从而提高文档召回的准确性。
在一实施例中,预设文本内包含多个主题内容,有的主题(例如,摘要与文档)内容由长文本组成,而用户查询信息一般为短文本,短文本与长文本的匹配效果较差。因此,需要对预设文本中各个主题内容进行句级分割处理,得到第一字段信息,实现短文本与短文本的匹配,提高第一字段信息与用户查询信息的匹配效果。图3是本申请实施例提供的一种第一字段信息的确定流程图,第一字段信息的确定方法应用于电子设备。如图3所示,包括如下步骤:
S21,从预设文本中确定初始文档内容与多个初始字段内容。
在一实施例中,预设文本的主题可以包括标题、摘要、目录、文档等,将除文档外的标题、摘要与目录作为字段信息,初始文档内容是指文档主题对应的内容,初始字段内容是指标题字段对应的标题内容、摘要字段对应的摘要内容以及目录字段对应的目录内容。
S22,对所述初始文档内容进行句级分割,得到目标文档内容。
在一实施例中,初始文档内容可能包含多个长文本,将初始文档内容进行句级分割,得到多个短文本,由多个短文本组成目标文档内容。其中,句级分割是一种处理文本的技术,它将文本按照句子进行划分。实现句级分割的方法有多种,示例性地,可以利用分词工具包(例如jieba工具)来将句子切分为不同的单词。
S23,对所述多个初始字段内容进行句级分割,得到多个目标字段内容。
在一实施例中,初始字段内容也可能包含多个长文本,例如,摘要内容包含多个长文本。将初始字段内容进行句级分割,得到多个短文本,由多个短文本组成目标字段内容。
S24,组合所述多个目标字段内容与所述目标文档内容,得到所述第一字段信息。
在一实施例中,将多个目标字段内容与目标文档内容存储在同一条数据上,得到第一字段信息。其中,多个目标字段内容与目标文档内容的顺序可以根据实际需求,在一实施例中,可以按照匹配的重要程度确定多个目标字段内容与目标文档内容的顺序,例如,标题字段对应目标字段内容的顺序在摘要字段对应目标字段内容之前,摘要字段对应目标字段内容的顺序在目录字段对应目标字段内容之前,目录字段对应目标字段内容的顺序在目标文档内容之前。
在一实施例中,对于预设文本中包含的不同主题内容,均存在对应的关键词,该关键词用于唯一标识主题内容,示例性地,文档内容存在唯一的第一关键词,例如,第一关键词可以为document;标题字段存在唯一的第二关键词,例如,第二关键词可以为title;摘要字段存在唯一的第二关键词,例如,第二关键词可以为abstrac。上述第一关键词与文档内容间存在第一索引关系,例如,第一索引关系可以为{document:文档内容};第二关键词与标题字段间存在第二索引关系,例如,第二索引关系可以为{title:标题字段}。在一实施例中,根据所述第一关键词与文档内容的第一索引关系,确定所述预设文本中与所述第一关键词对应的文档内容作为所述初始文档内容;根据每个第二关键词与字段内容的第二索引关系,确定所述预设文本中与所述每个第二关键词对应的字段内容,得到所述多个初始字段内容。
本申请实施例通过将初始文档内容与初始字段内容进行句级分割,使得用户查询信息与第一字段信息进行短文本与短文本的匹配,提高用户查询信息匹配的准确性,继而提高文档召回的准确性;且本申请融合多个目标字段内容与目标文档内容,使得用户查询信息可以与预设文本的多个维度进行信息匹配,提高用户查询信息匹配的准确性,继而提高文档召回的准确性。
在一实施例中,在句子中,通常包含主从关系与修饰关系,根据主从关系能够确定句子中的主语、谓语与宾语,根据修饰关系能够确定句子中的修饰词语。不同词性的词语在句子中的重要程度存在差异,例如,句子中的主语的重要程度会高于宾语的重要程度,宾语的重要程度会高于修饰词语的重要程度等。在将第一字段信息转换为第二字段信息时,可以根据句子中各个词语的重要程度设置相应的词性权重,以便在信息转换时能够对该词语进行重点分析与转换,提高信息转换的准确性,从而提高文档召回的准确性。图4是本申请实施例提供的一种第二字段信息的确定流程图,第二字段信息的确定方法可应用于电子设备。如图4所示,包括如下步骤:
S31,确定所述第一字段信息中每一句子的主从关系与修饰关系。
在一实施例中,第一字段信息中包含多个句子(本申请实施例也称“短文本”),每个句子均存在主从关系与修饰关系,通过语法分析确定每个句子中的主语、谓语、宾语与修饰词语,从而得到句子的主从关系与修饰关系。
S32,根据所述主从关系与所述修饰关系确定所述每一句子中词语的词性权重。
在一实施例中,预先设置词性与词性权重的对应关系,其中,词性可以包括但不限于主语、谓语、宾语与修饰词语,通过将每一句子中词语的词性与该对应关系进行比较,能够得到每一句子中词语的词性权重。示例性地,若句子包含主语、谓语、宾语与修饰词语,则主语对应的词性权重为0.5,谓语对应的词性权重为0.1,宾语对应的词性权重为0.3,修饰词语对应的词性权重为0.1;若句子包含主语、谓语与宾语,则主语对应的词性权重为0.5,谓语对应的词性权重为0.2,宾语对应的词性权重为0.3,在此不做限制。
S33,根据所述词性权重,调用预设的信息转换模型处理所述第一字段信息,得到所述第二字段信息。
在一实施例中,预设的信息转换模型是指预先训练完成的用于将第一语言的第一字段信息转换为第二语言的第二字段信息的模型,信息转换模型可以为神经网络模型,在此不做限制。信息转换模型的输入数据为确定好词性权重的第一字段信息(也即第一字段信息内携带词性权重的信息),输出数据为第二字段信息。
本申请实施例根据句子的主从关系与修饰关系确定每个词语的词性权重,使得预设的信息转换模型在对第一字段信息进行转换时,能够根据词性权重确定句子中不同词语的重要程度,提高信息转换的准确性,继而提高文档召回的准确性。
在一实施例中,第一匹配得分是指综合用户查询信息与第一字段信息中标题内容的标题匹配得分、用户查询信息与第一字段信息中摘要内容的摘要匹配得分以及用户查询信息与第一字段信息中文档内容的文档匹配得分得到的。图5是本申请实施例提供的一种第一匹配得分的计算流程图,第一匹配得分的计算方法可应用于电子设备。如图5所示,包括如下步骤:
S41,计算所述用户查询信息与所述目标文档内容的文档匹配得分。
在一实施例中,文档匹配得分可以使用BM25分数或者向量距离等方式得到,在此不做限制。本申请实施例仅以向量距离的方式确定文档匹配得分,文档匹配得分可以通过计算用户查询信息对应向量与第一字段信息中文档内容对应向量间距离值得到。
S42,计算所述用户查询信息与每个目标字段内容的字段匹配得分。
在一实施例中,承接上述实施例,第一字段信息包括不同主题的内容,例如,若第一字段信息A包括标题内容、摘要内容以及文档内容,则字段匹配得分可以包括标题匹配得分与摘要匹配得分,其中,标题匹配得分可以通过计算用户查询信息对应向量与第一字段信息中标题内容对应向量间距离值得到,摘要匹配得分可以通过计算用户查询信息对应向量与第一字段信息中摘要内容对应向量间距离值得到。
S43,确定所述文档匹配得分对应的第一权重与所述字段匹配得分对应的第二权重;
在一实施例中,第一权重与第二权重可以根据主题内容的重要程度确定,重要程度可根据文档召回的相关指标确定,重要程度越高,文档召回效果越好,对应权重越大;重要程度越低,文档召回效果越差,对应权重越小。
在一实施例中,若字段匹配得分包括标题匹配得分与摘要匹配得分,则第二权重的数量可以为2个,分别为标题权重与摘要权重,标题匹配得分对应标题权重,摘要匹配得分对应摘要权重。示例性地,标题权重的值大于摘要权重的值,摘要权重的值大于第一权重的值。
S44,根据所述第一权重与所述文档匹配得分,以及所述第二权重与所述字段匹配得分,确定所述第一匹配得分。
在一实施例中,计算第一权重与文档匹配得分的乘积,得到第一加权值;计算第二权重与字段匹配得分的乘积,得到第二加权值;计算第一加权值与第二加权值的和,得到第一匹配得分。
本申请实施例通过计算第一字段信息中每个主题内容与用户查询信息的匹配得分,得到第一字段信息的第一匹配得分,能够从预设文本中的多维度确定第一匹配得分,提高第一匹配得分确定的准确性,继而提高文档召回的准确性。
在一实施例中,根据主题内容的重要程度确定第一权重与第二权重,重要程度可根据文档召回的相关指标确定。图6是本申请实施例提供的一种权重信息的确定流程图,权重信息的确定方法可应用于电子设备。如图6所示,包括如下步骤:
S51,确定所述目标文档内容对应的第一召回速率与第一召回准确率。
在一实施例中,将用户查询信息与目标文档内容进行匹配,得到召回文档,确定该召回文档对应的第一召回速率与第一召回准确率,其中,第一召回速率根据预设时间段内召回不同用户查询信息对应文档的数量得到,第一召回准确率根据召回文档的总数量以及添加预设标记的召回文档的数量得到。预设标记是指预先设置的用于标记召回文档是否符合用户需求的信息,预设标记可以为数字标记、字母标记或颜色标记,在此不做限制。
S52,根据所述第一召回速率与所述第一召回准确率确定所述目标文档内容的第一召回率。
在一实施例中,分别确定第一召回速率对应的召回速率权重以及第一召回准确率对应的召回准确率权重,计算第一召回速率与召回速率权重的乘积,以及第一召回准确率与召回准确率权重的乘积,将上述两个乘积相加,得到第一召回率。其中,召回速率权重与召回准确率权重可以根据实际需求设置,在此不做限制。第一召回率用于评估根据目标文档内容进行文档召回的召回效果,若第一召回率越大,则召回效果越好;若第一召回率越低,则召回效果越差。
S53,确定所述目标字段内容对应的第二召回速率与第二召回准确率。
在一实施例中,将用户查询信息与目标字段内容进行匹配,得到召回文档,确定该召回文档对应的第二召回速率与第二召回准确率,其中,第二召回速率根据预设时间段内召回不同用户查询信息对应文档的数量得到,第二召回准确率根据召回文档的总数量以及添加预设标记的召回文档的数量得到。预设标记是指预先设置的用于标记召回文档是否符合用户需求的信息,预设标记可以为数字标记、字母标记或颜色标记,在此不做限制。
S54,根据所述第二召回速率与所述第二召回准确率确定所述目标字段内容的第二召回率。
在一实施例中,分别确定第二召回速率对应的召回速率权重以及第二召回准确率对应的召回准确率权重,计算第二召回速率与召回速率权重的乘积,以及第二召回准确率与召回准确率权重的乘积,将上述两个乘积相加,得到第二召回率。其中,召回速率权重与召回准确率权重可以根据实际需求设置,在此不做限制。第二召回率用于评估根据目标字段内容进行文档召回的召回效果,若第二召回率越大,则召回效果越好;若第二召回率越低,则召回效果越差。
S55,根据所述第一召回率与所述第二召回率确定所述文档匹配得分对应的第一权重与所述字段匹配得分对应的第二权重。
在一实施例中,预设权重确定模型,该权重确定模型为神经网络模型,输入数据为多个召回率,输出数据为对应数量的权重信息,不同召回率存在相应的权重,将第一召回率与第二召回率输入至预设的权重确定模型中,能够得到文档匹配得分对应的第一权重以及字段匹配得分对应的第二权重。
本申请实施例根据文档召回效果确定文档匹配得分对应的第一权重以及字段匹配得分对应的第二权重,避免人为确定权重导致权重准确性较低的问题,能够提高权重确定的准确性,继而提高匹配得分确定的准确性,提高文档召回的准确性。
在一实施例中,可以通过计算向量间距离的方式确定用户查询信息与目标文档内容间的匹配得分,其中,距离可以为欧氏距离。图7是本申请实施例提供的一种文档匹配得分的确定流程图,文档匹配得分的确定方法可应用于电子设备。如图7所示,包括如下步骤:
S61,对所述用户查询信息进行向量化处理,得到用户查询向量。
在一实施例中,调用预设的向量处理模型处理用户查询信息,得到用户查询向量。
S62,对所述目标文档内容进行向量化处理,得到目标文档向量。
在一实施例中,调用预设的向量处理模型处理目标文档内容中的每个短文本,得到多个目标文档向量。
S63,计算所述用户查询向量与所述目标文档向量间的距离值,得到所述文档匹配得分。
在一实施例中,计算用户查询向量与每个目标文档向量的距离值,计算多个距离值的平均值,得到文档匹配得分。在其他实施例中,计算用户查询向量与每个目标文档向量的距离值,并对距离值进行排序,选取最小距离值作为文档匹配得分。
本申请实施例通过计算向量间距离的方式确定用户查询信息与目标文档内容间的匹配得分,提高匹配得分确定的效率,继而提高文档召回的效率。
图8是本申请实施例提供的一种召回文档的确定流程图,召回文档的确定方法可应用于电子设备。如图8所示,包括如下步骤:
S71,确定所述第一匹配得分对应的第三权重以及所述第二匹配得分对应的第四权重。
在一实施例中,第三权重与第四权重可以为预先设置的,例如,第三权重与第四权重均为0.5;在其他实施例中,第三权重与第四权重可以根据用户查询信息的语言类型确定,若用户查询信息为第一语言,则第三权重大于第四权重;若用户查询信息为第二语言,则第三权重小于第四权重。
S72,根据所述第一匹配得分与所述第三权重,以及所述第二匹配得分与所述第四权重,确定所述第一字段信息和/或所述第二字段信息对应的目标匹配得分。
在一实施例中,计算第一匹配得分与第三权重的乘积,以及第二匹配得分与第四权重的乘积,将上述两个乘积相加,得到第一字段信息和/第二字段信息对应的目标匹配得分。
S73,根据所述目标匹配得分对所述第一字段信息和/或所述第二字段信息进行排序,并选取所述预设数量的第一字段信息和/或所述第二字段信息生成所述召回文档。
在一实施例中,预设数量是指预先设置的大语言模型能接受的最大召回文档的数量,按照目标匹配得分将第一字段信息和/或第二字段信息进行排序,选取目标匹配得分较高的预设数量的第一字段信息和/或第二字段信息作为目标字段信息,将选取的目标字段信息作为召回文档。
本申请实施例将第一字段信息转换为第二字段信息,第一字段信息与第二字段信息的语言种类并不相同,通过扩充数据源计算匹配得分,提高匹配得分确定的准确性,从而提高文档召回的准确性。
请参阅图9,图9是本申请实施例提供的文档召回装置的结构示意图。在一些实施例中,文档召回装置20可以包括多个由计算机程序段所组成的功能模块。文档召回装置20中的各个程序段的计算机程序可以存储于计算机设备30的存储器中,并由至少一个控制器所执行,以执行(详见图2描述)文档召回的功能。
本实施例中,文档召回装置20根据其所执行的功能,可以被划分为多个功能模块。功能模块可以包括:字段信息确定模块201、字段信息翻译模块202、匹配得分计算模块203以及召回文档确定模块204。本申请所称的模块是指一种能够被至少一个控制器所执行并且能够完成固定功能的一系列计算机程序段,其存储在存储器中。在本实施例中,关于各模块的功能将在后续的实施例中详述。
字段信息确定模块201可以用于确定第一字段信息,所述第一字段信息为第一语言。
字段信息翻译模块202可以用于将所述第一字段信息翻译为第二语言对应的第二字段信息。
匹配得分计算模块203可以用于响应接收到的用户查询信息,计算所述用户查询信息与所述第一字段信息对应的第一匹配得分以及所述用户查询信息与所述第二字段信息对应的第二匹配得分。
召回文档确定模块204可以用于根据所述第一匹配得分与所述第二匹配得分,确定预设数量的目标字段信息作为召回文档。
在一些实施例中,字段信息确定模块201还包括:初始字段内容确定子模块,用于从预设文本中确定初始文档内容与多个初始字段内容;第一句级分割子模块,用于对所述初始文档内容进行句级分割,得到目标文档内容;第二句级分割子模块,用于对所述多个初始字段内容进行句级分割,得到多个目标字段内容;内容组合子模块,用于组合所述多个目标字段内容与所述目标文档内容,得到所述第一字段信息。
在一些实施例中,字段信息确定模块201还包括:初始文档内容确定子模块,用于若所述预设文本中存在第一关键词,则根据所述第一关键词与文档内容的第一索引关系,确定所述预设文本中与所述第一关键词对应的文档内容作为所述初始文档内容;初始字段内容确定子模块,用于若所述预设文本中存在多个第二关键词,则根据每个第二关键词与字段内容的第二索引关系,确定所述预设文本中与所述每个第二关键词对应的字段内容,得到所述多个初始字段内容。
在一些实施例中,字段信息翻译模块202还包括:句子关系确定子模块,用于确定所述第一字段信息中每一句子的主从关系与修饰关系;词性权重确定子模块,用于根据所述主从关系与所述修饰关系确定所述每一句子中词语的词性权重;转换模型调用子模块,用于根据所述词性权重调用预设的信息转换模型处理所述第一字段信息,得到所述第二字段信息。
在一些实施例中,匹配得分计算模块203还包括:文档匹配得分计算子模块,用于计算所述用户查询信息与所述目标文档内容的文档匹配得分;字段匹配得分计算子模块,用于计算所述用户查询信息与每个目标字段内容的字段匹配得分;权重确定子模块,用于确定所述文档匹配得分对应的第一权重与所述字段匹配得分对应的第二权重;第一匹配得分确定子模块,用于根据所述第一权重与所述文档匹配得分,以及所述第二权重与所述字段匹配得分,确定所述第一匹配得分。
在一些实施例中,匹配得分计算模块203还包括:第一召回信息确定子模块,用于确定所述目标文档内容对应的第一召回速率与第一召回准确率;第一召回率确定子模块,用于根据所述第一召回速率与所述第一召回准确率确定所述目标文档内容的第一召回率;第二召回信息确定子模块,用于确定所述目标字段内容对应的第二召回速率与第二召回准确率;第二召回率确定子模块,用于根据所述第二召回速率与所述第二召回准确率确定所述目标字段内容的第二召回率;权重确定子模块,用于根据所述第一召回率与所述第二召回率确定所述文档匹配得分对应的第一权重以及所述字段匹配得分对应的第二权重。
在一些实施例中,匹配得分计算模块203还包括:用户查询信息向量化子模块,用于对所述用户查询信息进行向量化处理,得到用户查询向量;文档内容向量化子模块,用于对所述目标文档内容进行向量化处理,得到目标文档向量;向量距离值计算子模块,用于计算所述用户查询向量与所述目标文档向量间的距离值,得到所述文档匹配得分。
在一些实施例中,召回文档确定模块204还包括:权重确定子模块,用于确定所述第一匹配得分对应的第三权重以及所述第二匹配得分对应的第四权重;目标匹配得分确定子模块,用于根据所述第一匹配得分与所述第三权重,以及所述第二匹配得分与所述第四权重,确定所述第一字段信息和/或所述第二字段信息对应的目标匹配得分;匹配得分排序子模块,用于根据所述目标匹配得分对所述第一字段信息和/或所述第二字段信息进行排序,并选取所述预设数量的第一字段信息和/或所述第二字段信息生成所述召回文档。
可以理解,文档召回装置20与上述实施例的文档召回方法属于同一发明构思,文档召回装置20各模块的具体实现方式,与上述实施例中文档召回方法的各步骤对应,本申请在此不赘述。
以上所描述的模块划分,为一种逻辑功能划分,实际实现时可以有另外的划分方式。另外,在本申请各个实施例中的各功能模块可以集成在相同处理单元中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在相同单元中。上述集成的模块既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
接着对图1中的电子设备进行描述,在一些实施例中,电子设备30还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
存储器31中存储有计算机程序,计算机程序被至少一个控制器32执行时实现如的文档召回方法中的全部或者部分步骤。存储器31包括只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable Read-Only Memory,PROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,EPROM)、一次可编程只读存储器(One-time Programmable Read-Only Memory,OTPROM)、电子擦除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(CompactDisc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
进一步地,计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据电子设备30的使用所创建的数据等。
在一些实施例中,至少一个控制器32是电子设备30的控制核心(Control Unit),利用各种接口和线路连接整个电子设备30的各个部件,通过运行或执行存储在存储器31内的程序或者模块,以及调用存储在存储器31内的数据,以执行电子设备30的各种功能和处理数据。例如,至少一个控制器32执行存储器中存储的计算机程序时实现本申请实施例中的文档召回方法的全部或者部分步骤;或者实现文档召回装置的全部或者部分功能。至少一个控制器32可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央控制器(CentralProcessing unit,CPU)、微控制器、数字处理芯片、图形控制器及各种控制芯片的组合等。
上述以软件功能模块的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台电子设备(可以是个人计算机,电子设备,或者网络设备等)或控制器(processor)执行本申请各个实施例方法的部分。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,既可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在不背离本申请的精神或基本特征的情况下,能够以其他的具体形式实现本申请。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或,单数不排除复数。说明书中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本申请的技术方案而非限制,尽管参照较佳实施例对本申请进行了详细说明,本领域的普通技术人员应当理解,可以对本申请的技术方案进行修改或等同替换,而不脱离本申请技术方案的精神和范围。
Claims (10)
1.一种文档召回方法,其特征在于,所述方法包括:
确定第一字段信息,所述第一字段信息对应第一语言;
将所述第一字段信息转换为第二字段信息,所述第二字段信息对应第二语言;
响应接收到的用户查询信息,计算所述用户查询信息与所述第一字段信息的第一匹配得分以及所述用户查询信息与所述第二字段信息的第二匹配得分;
根据所述第一匹配得分与所述第二匹配得分,确定预设数量的目标字段信息作为召回文档。
2.如权利要求1所述的方法,其特征在于,所述确定第一字段信息,包括:
从预设文本中确定初始文档内容与多个初始字段内容;
对所述初始文档内容进行句级分割,得到目标文档内容;
对所述多个初始字段内容进行句级分割,得到多个目标字段内容;
组合所述多个目标字段内容与所述目标文档内容,得到所述第一字段信息。
3.如权利要求2所述的方法,其特征在于,所述从预设文本中确定初始文档内容与多个初始字段内容,包括:
若所述预设文本中存在第一关键词,则根据所述第一关键词与文档内容的第一索引关系,确定所述预设文本中与所述第一关键词对应的文档内容作为所述初始文档内容;
若所述预设文本中存在多个第二关键词,则根据每个第二关键词与字段内容的第二索引关系,确定所述预设文本中与所述每个第二关键词对应的字段内容,得到所述多个初始字段内容。
4.如权利要求1所述的方法,其特征在于,所述将所述第一字段信息转换为第二字段信息,包括:
确定所述第一字段信息中每一句子的主从关系与修饰关系;
根据所述主从关系与所述修饰关系确定所述每一句子中词语的词性权重;
根据所述词性权重,调用预设的信息转换模型处理所述第一字段信息,得到所述第二字段信息。
5.如权利要求2所述的方法,其特征在于,所述计算所述用户查询信息与所述第一字段信息的第一匹配得分,包括:
计算所述用户查询信息与所述目标文档内容的文档匹配得分;
计算所述用户查询信息与每个目标字段内容的字段匹配得分;
确定所述文档匹配得分对应的第一权重与所述字段匹配得分对应的第二权重;
根据所述第一权重与所述文档匹配得分,以及所述第二权重与所述字段匹配得分,确定所述第一匹配得分。
6.如权利要求5所述的方法,其特征在于,所述确定所述文档匹配得分对应的第一权重与所述字段匹配得分对应的第二权重,包括:
确定所述目标文档内容对应的第一召回速率与第一召回准确率;
根据所述第一召回速率与所述第一召回准确率确定所述目标文档内容的第一召回率;
确定所述目标字段内容对应的第二召回速率与第二召回准确率;
根据所述第二召回速率与所述第二召回准确率确定所述目标字段内容的第二召回率;
根据所述第一召回率与所述第二召回率确定所述文档匹配得分对应的第一权重以及所述字段匹配得分对应的第二权重。
7.如权利要求5所述的方法,其特征在于,所述计算所述用户查询信息与所述目标文档内容的文档匹配得分,包括:
对所述用户查询信息进行向量化处理,得到用户查询向量;
对所述目标文档内容进行向量化处理,得到目标文档向量;
计算所述用户查询向量与所述目标文档向量间的距离值,得到所述文档匹配得分。
8.如权利要求1所述的方法,其特征在于,所述根据所述第一匹配得分与所述第二匹配得分,确定预设数量的目标字段信息作为召回文档,包括:
确定所述第一匹配得分对应的第三权重以及所述第二匹配得分对应的第四权重;
根据所述第一匹配得分与所述第三权重,以及所述第二匹配得分与所述第四权重,确定所述第一字段信息和/或所述第二字段信息对应的目标匹配得分;
根据所述目标匹配得分对所述第一字段信息和/或所述第二字段信息进行排序,并选取所述预设数量的第一字段信息和/或所述第二字段信息生成所述召回文档。
9.一种文档召回装置,其特征在于,所述装置包括:
字段信息确定模块,用于确定第一字段信息,所述第一字段信息为第一语言;
字段信息翻译模块,用于将所述第一字段信息翻译为第二语言对应的第二字段信息;
匹配得分计算模块,用于响应接收用户查询信息,计算所述用户查询信息与所述第一字段信息对应的第一匹配得分以及所述用户查询信息与所述第二字段信息对应的第二匹配得分;
召回文档确定模块,用于根据所述第一匹配得分与所述第二匹配得分,确定预设数量的目标字段信息作为召回文档。
10.一种电子设备,其特征在于,所述电子设备包括控制器与存储器,所述控制器用于执行所述存储器中存储的计算机程序时实现如权利要求1至8中任意一项所述的文档召回方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311736016.4A CN117609471A (zh) | 2023-12-14 | 2023-12-14 | 文档召回方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311736016.4A CN117609471A (zh) | 2023-12-14 | 2023-12-14 | 文档召回方法、装置及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117609471A true CN117609471A (zh) | 2024-02-27 |
Family
ID=89944406
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311736016.4A Pending CN117609471A (zh) | 2023-12-14 | 2023-12-14 | 文档召回方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117609471A (zh) |
-
2023
- 2023-12-14 CN CN202311736016.4A patent/CN117609471A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112307215B (zh) | 数据处理方法、装置及计算机可读存储介质 | |
CN112131393A (zh) | 一种基于bert和相似度算法的医疗知识图谱问答系统构建方法 | |
CN113707300B (zh) | 基于人工智能的搜索意图识别方法、装置、设备及介质 | |
CN111813905B (zh) | 语料生成方法、装置、计算机设备及存储介质 | |
CN111680634A (zh) | 公文文件处理方法、装置、计算机设备及存储介质 | |
CN109564573A (zh) | 来自计算机应用元数据的平台支持集群 | |
CN111144120A (zh) | 一种训练语句的获取方法、装置、存储介质及电子设备 | |
CN111797245B (zh) | 基于知识图谱模型的信息匹配方法及相关装置 | |
WO2020123689A1 (en) | Suggesting text in an electronic document | |
CN113627797A (zh) | 入职员工画像生成方法、装置、计算机设备及存储介质 | |
CN111651579B (zh) | 信息查询方法、装置、计算机设备和存储介质 | |
CN116738476A (zh) | 一种基于大语言模型的安全交互方法及装置 | |
CN112182150A (zh) | 基于多元数据的聚合检索方法、装置、设备及存储介质 | |
CN116796730A (zh) | 基于人工智能的文本纠错方法、装置、设备及存储介质 | |
CN113342944B (zh) | 一种语料泛化方法、装置、设备及存储介质 | |
CN114020892A (zh) | 基于人工智能的答案选取方法、装置、电子设备及介质 | |
CN112529743B (zh) | 合同要素抽取方法、装置、电子设备及介质 | |
CN114253990A (zh) | 数据库查询方法、装置、计算机设备和存储介质 | |
WO2021085085A1 (ja) | ワークショップ支援システム及びワークショップ支援方法 | |
CN113157887A (zh) | 知识问答意图识别方法、装置、及计算机设备 | |
EP3901875A1 (en) | Topic modelling of short medical inquiries | |
CN111931034A (zh) | 数据搜索方法、装置、设备及存储介质 | |
CN116956934A (zh) | 任务处理方法、装置、设备及存储介质 | |
WO2021199052A1 (en) | Methods and systems for searching and retrieving information | |
CN116521892A (zh) | 知识图谱的应用方法、装置、电子设备、介质和程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |