CN115033594B - 一种给出置信度的垂直领域检索方法与装置 - Google Patents

一种给出置信度的垂直领域检索方法与装置 Download PDF

Info

Publication number
CN115033594B
CN115033594B CN202210953656.XA CN202210953656A CN115033594B CN 115033594 B CN115033594 B CN 115033594B CN 202210953656 A CN202210953656 A CN 202210953656A CN 115033594 B CN115033594 B CN 115033594B
Authority
CN
China
Prior art keywords
word
text
vocabulary
sentence
corpus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210953656.XA
Other languages
English (en)
Other versions
CN115033594A (zh
Inventor
张梦璘
郏维强
华炜
俞再亮
马树楷
韩松岭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Priority to CN202210953656.XA priority Critical patent/CN115033594B/zh
Publication of CN115033594A publication Critical patent/CN115033594A/zh
Application granted granted Critical
Publication of CN115033594B publication Critical patent/CN115033594B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Abstract

本发明提供了一种给出置信度的垂直领域检索方法和装置,方法包括在初次启动检索引擎时,生成用来将预存信息生成查询过程中所需要的第一词权重表、惩罚词权重表;对待查语句集进行处理,生成待查语句的满匹配得分表和倒排索引表;用户输入查询语句,求得该查询语句与待查语句集的匹配置信度并进行降序排列。本发明充分考虑未涵盖在特定语料库中的词汇,使用协调因子重构其词权重,并设计合理的计算公式给出令人信服的匹配置信度,从而支撑下游任务的顺利进行。

Description

一种给出置信度的垂直领域检索方法与装置
技术领域
本发明涉及信息处理技术领域,尤其涉及一种给出置信度的垂直领域检索方法与装置。
背景技术
随着信息技术对人们工作、学习与生活的不断渗透,信息呈现爆炸增长,传统的搜索引擎在面对海量数据时,逐渐显现出一些不足,如响应速度慢、检索结果排序不准确等。而且,随着人工智能的不断发展,基于知识的检索对下游的自然语言处理等任务更是尤为关键。以智能对话机器人来举例,基于相似度匹配的知识问答通常会作为意图识别、任务型对话、情感分析、生成式闲聊对话等一系列任务的最上层任务来处理,对检索结果处理不当会对下游任务造成很大的负担:例如过度匹配出现捕捉过度(Catch all),所有用户问询将全部由预设的问答对来进行回复,而无法进行下一步的任务;而过于疏忽(Remiss)也会造成对于经典的问题没法进行准确且统一的回复,增加了处理时间且加重了下游任务的负担。
由上我们可知对于上游的检索任务,置信度是非常重要的指标,用来衡量用户检索意图与返回文档的相关程度。在信息检索中,为了快速从海量数据筛选出合适的结果反馈用户,现有技术通常为基于词频的算法:倒排索引被广泛使用来实现召回和粗筛,而检索结果排序通常使用的是经典的TF-IDF(Term Frequency - Inverse Document Frequency)算法。在该主流算法中,通过IDF(逆文档频率)方法来计算查询词的词权重,即通过文档集合中所有文档的数目除以包含某个查询词的文档的数目,再将得到的商取对数的结果,作为该查询词的权重值。现有技术的主要缺陷在于查询词权重值由网络中包含该查询词的文档数目所决定,与查询词在该查询式中的重要程度有较大偏差。在垂直领域数据量较少,无法涵盖用户输入的所有查询词,这种情况下对于一些用户查询语句中的关键词可能会不在语料库中,即超出词表(OOV, Out Of Vocabulary)问题,从而因为无法确认这些词汇的重要性而被忽略,导致匹配结果出现重大偏差,在实际应用中不能很好地满足用户的需要。
发明内容
本发明的目的在于针对现有技术的不足,提供了一种给出置信度的垂直领域检索方法与装置。
本发明的目的是通过以下技术方案来实现的:一种给出置信度的垂直领域检索方法,包括以下步骤:
(1)在初次启动检索引擎时,生成用来将预存信息生成查询过程中所需要的第一词权重表、惩罚词权重表;
(2)对待查语句集进行处理,生成待查语句的满匹配得分表和倒排索引表;
(3)用户输入查询语句,求得该查询语句与待查语句集的匹配置信度并进行降序排列。
进一步地,所述步骤(1)具体包括以下子步骤:
(1.1)将特定语料库中的多个文本拼接成单个超大文本,去除单个超大文本中的所有标点符号并进行分词,得到由独立词汇和空格组成的特定语料文本;随后对特定语料文本进行片段切割,得到由相同词汇数构成的语料片段组成的特定语料片段文本;
将通用语料库中的多个文本拼接成单个超大文本,去除单个超大文本中的所有标点符号并进行分词,得到由独立词汇和空格组成的通用语料文本;随后对通用语料文本进行片段切割,得到由相同词汇数构成的语料片段组成的通用语料片段文本;
(1.2)计算特定语料文本的单个词汇在特定语料文本内的第一总词频,即该词汇在特定语料文本内出现的总次数;并计算特定语料文本的单个词汇在特定语料片段文本内的第一最高词频,即该词汇在语料片段内出现的最多次数;
计算通用语料文本的单个词汇在通用语料文本内的第二总词频,即该词汇在通用语料文本内出现的总次数;并计算通用语料文本的单个词汇在通用语料片段文本内的第二最高词频,即该词汇在所有语料片段内出现的最多次数;
(1.3)计算特定语料文本的单个词汇的第一词权重,该词汇的第一词权重=该词汇的第一最高词频/该词汇的第一总词频;
计算通用语料文本的单个词汇的第二词权重,该词汇的第二词权重=该词汇的第二最高词频/该词汇的第二总词频;
(1.4)所述特定语料文本和所述通用语料文本相比具有N个重合词汇,计算特定语料文本的调和平均数Tt
Figure 977032DEST_PATH_IMAGE001
,其中,
Figure 425331DEST_PATH_IMAGE002
,mi为第i个重合词汇的第一总词频;计算通用语料文本的调和平均数Qt
Figure 736226DEST_PATH_IMAGE003
,其中,ni为第i个重合词汇的第二总词频;得到协调因子H,
Figure 459332DEST_PATH_IMAGE004
(1.5)除去通用语料文本中的所有的重合词汇以及超高频和超低频的词汇,剩余的词汇作为惩罚词汇,将单个惩罚词汇的第二总词频乘上协调因子H得到单个惩罚词汇的惩罚总词频;
所述超高频的词汇为第二总词频大于10000的词汇;所述超低频的词汇为第二总词频小于100的词汇;
将单个惩罚词汇的第二词权重乘上协调因子H得到单个惩罚词汇的惩罚词权重;
以惩罚词汇及其惩罚词权重作为惩罚词权重表;
(1.6)以特定语料文本内的词汇及其第一词权重作为第一词权重表。
进一步地,所述步骤(2)具体包括以下子步骤:
(2.1)对于待查语句集中的单条待查语句进行分词,统计该待查语句的词汇数;
(2.2)以所述第一词权重表和惩罚词权重表为依据,对于单条待查语句逐词统计每个词汇的第一词权重或惩罚词权重,并对统计的第一词权重或惩罚词权重进行求和得到单条待查语句的满匹配得分;
(2.3)将待查语句、待查语句的词汇数以及待查语句的满匹配得分作为待查语句的满匹配得分表;
(2.4)对待查语句集中的待查语句和词汇进行倒排索引,生成倒排索引表,所述倒排索引表为所述词汇与对应待查语句的映射表。
进一步地,所述步骤(3)具体包括以下子步骤:
(3.1)用户输入查询语句;
(3.2)对用户输入的查询语句进行分词,并统计该查询语句的词汇数;
(3.3)对用户所输入的查询语句,分词后逐词统计每个词汇的第一词权重或惩罚词权重,并对统计的第一词权重或惩罚词权重进行求和得到查询语句的满匹配得分;
(3.4)查询语句分词后逐词查询所述倒排索引表,召回每个词汇的待查语句作为相关待查语句集;召回过程中,若查询语句的词汇出现重复,对重复词汇只进行一次召回;若待查语句已被一个词汇召回,该待查语句不会被下一个词汇再召回;
随后对每一条召回的待查语句,统计每一条召回的待查语句与查询语句的匹配词汇数和匹配词汇总得分;
并通过查询待查语句的满匹配得分表,得到每一条召回的待查语句的词汇数和满匹配得分;
(3.5)计算查询语句与相关待查语句集中每个召回的待查语句的匹配置信度,所述匹配置信度通过以下公式计算:
Figure 8125DEST_PATH_IMAGE005
(3.6)对求得查询语句和相应待测语句的匹配置信度进行降序排列。
本发明还提供一种给出置信度的垂直领域检索装置,包括引擎预备单元和检索单元;
所述引擎预备单元包括:
数据预处理模块,用于计算特定语料文本的单个词汇的第一总词频和第一最高词频以及通用语料文本的单个词汇的第二总词频和第二最高词频;
词权重生成模块,用于计算特定语料文本的单个词汇的第一词权重以及通用语料文本的单个词汇的第二词权重;
语料库整合模块,用于生成通用语料文本除去所有的重合词汇的剩余词汇的惩罚词权重;
静态字典生成模块,用于生成惩罚词权重表、第一词权重表、待查语句的满匹配得分表和倒排索引表;
所述检索单元包括:
查询语句预处理模块,用于对用户输入的查询语句进行分词,并统计该查询语句的词汇数;
检索与统计模块,用于召回每个词汇的待查语句作为相关待查语句集,统计每一条召回的待查语句与查询语句的匹配词汇数和匹配词汇总得分,并通过查询待查语句的满匹配得分表,得到每一条召回的待查语句的词汇数和满匹配得分;
匹配置信度计算模块,用于计算查询语句与相关待查语句集中每个召回的待查语句的匹配置信度;
排序模块,用于对求得查询语句和相应待测语句的匹配置信度进行降序排列。
本发明还提供一种给出置信度的垂直领域检索装置,包括一个或多个处理器,用于实现上述给出置信度的垂直领域检索方法。
本发明还提供一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,用于实现上述给出置信度的垂直领域检索方法。
本发明的有益效果是:本发明对较大量级的通用语料库进行了数据分析与处理,补足了特征语料库较小,词库不完全的问题;本发明采用离线的基于词汇的数据处理方法,词频统计分析与词权重计算等来生成惩罚词权重表、第一词权重表、待查语句的满匹配得分表和倒排索引表这些静态字典,从而提高使用过程中数据查询与检索速度;本发明对于不同的用户查询语句给出具有相对匹配置信度的检索结果,通过相对置信度阈值的调整减少因上游检索任务的捕获过度或捕获疏忽,从而减少对下游任务造成的干扰或负担;本发明所提出的引擎预备和检索的方法与装置改善了现有技术的不足,既提高了检索效率,更给出了可解释性高的相对置信度来供下游任务参考。
附图说明
图1为一种给出置信度的垂直领域检索方法的示意图;
图2为一种给出置信度的垂直领域检索方法的流程示意图;
图3为一种给出置信度的垂直领域检索装置的一个实施例的示意图;
图4为一种给出置信度的垂直领域检索装置的另一个实施例的示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加明白清楚,结合附图和实施例,对本发明进一步的详细说明,应当理解,此处所描述的具体实施例仅仅用以解释本发明,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得 的所有其他实施例,均在本发明保护范围。
实施例1
如图1和图2所示,本发明提供一种给出置信度的垂直领域检索方法,包括以下步骤:
(1)在初次启动检索引擎时,生成用来将预存信息生成查询过程中所需要的第一词权重表、惩罚词权重表。
所述步骤(1)具体包括以下子步骤:
(1.1)将特定语料库中的多个文本拼接成单个超大文本,去除单个超大文本中的所有标点符号并进行分词,得到由独立词汇和空格组成的特定语料文本;随后对特定语料文本进行片段切割,得到由相同词汇数构成的语料片段组成的特定语料片段文本;
将通用语料库中的多个文本拼接成单个超大文本,去除单个超大文本中的所有标点符号并进行分词,得到由独立词汇和空格组成的通用语料文本;随后对通用语料文本进行片段切割,得到由相同词汇数构成的语料片段组成的通用语料片段文本。
特定语料库:指垂直领域的上游任务所需的语料库。以问答任务为例,特定语料库为问答任务的所有问题的集合,每个预存的问句为一个语料片段。这些问句词汇总数不等,但通常词汇数不多且问句间互相独立,故不做切割。在实验室园区知识问答场景下,特定语料库的语料片段举例为“实验室 园区 占地 多少 亩”、“实验室 外宾 接待 经费 开支 范围”,其中前者包含5个词汇,后者包含6个词汇。对于特定语料库中待匹配的问题以下统称为待查语句。
通用语料库:指开放域的通用中文语料库。通常较大量级,在本实施例中以2022年3月的中文维基百科举例,解压前有2.33G,包含1274个文本。将通用语料库中的1274个文本拼接成单个超大文本,去除单个超大文本中的所有标点符号并进行分词,产生由独立词汇和空格组成的通用语料文本;随后对通用语料文本进行片段切割,此时有25个词汇构成一个语料片段,产生由若干个25个词汇构成的语料片段组成的通用语料片段文本。
(1.2)计算特定语料文本的单个词汇在特定语料文本内的第一总词频,即该词汇在特定语料文本内出现的总次数;并计算特定语料文本的单个词汇在特定语料片段文本内的第一最高词频,即该词汇在语料片段内出现的最多次数;
计算通用语料文本的单个词汇在通用语料文本内的第二总词频,即该词汇在通用语料文本内出现的总次数;并计算通用语料文本的单个词汇在通用语料片段文本内的第二最高词频,即该词汇在所有语料片段内出现的最多次数。
例如,本实施例中,“小行星”这个词汇在通用语料文本内共计出现66649次,则“小行星”的第二总词频为66649;“小行星”在多个语料片段中出现了2次(由20个词汇数构成的语料片段),在其他语料片段中出现2次以下,则“小行星”的第二最高词频为2。“小行星”在通用语料文本内出现,未出现在特定语料文本内,那么“小行星”没有第一总词频和第一最高词频。
(1.3)计算特定语料文本的单个词汇的第一词权重,该词汇的第一词权重=该词汇的第一最高词频/该词汇的第一总词频;
计算通用语料文本的单个词汇的第二词权重,该词汇的第二词权重=该词汇的第二最高词频/该词汇的第二总词频。
在本实施例中,词权重计算方法具体为:每个词汇的词权重为每个词汇在其所在语料库内的最高词频与每个词汇在其所在语料库内的总词频之比。某个词汇在其所在语料库内的总词频越高,则该词汇在多个文档/语句中出现导致标识性下降,就更倾向于是大众通用词汇,例如“是”、“的”这些缺少实际含义的词汇,对置信度的影响度应该降低;片段内最高词汇则指出了该词汇对于该语料片段属于高频词汇,例如百科中关于某个大学的介绍,则该大学的名称会在文中多次出现,例如“浙江大学的历史”、“浙江大学的学院介绍”、“浙江大学的学科排名”等,而在其他文本中较少出现该学校的名称,则该词汇是具有一定标识性的,对置信度的影响度应该提高。
(1.4)所述特定语料文本和所述通用语料文本相比具有N个重合词汇,计算特定语料文本的调和平均数Tt
Figure 158483DEST_PATH_IMAGE001
,其中,
Figure 956675DEST_PATH_IMAGE002
,mi为第i个重合词汇的第一总词频;计算通用语料文本的调和平均数Qt
Figure 185269DEST_PATH_IMAGE003
,其中,ni为第i个重合词汇的第二总词频;得到协调因子H,
Figure 385306DEST_PATH_IMAGE004
(1.5)除去通用语料文本中的所有的重合词汇以及超高频和超低频的词汇,剩余的词汇作为惩罚词汇,将单个惩罚词汇的第二总词频乘上协调因子H得到单个惩罚词汇的惩罚总词频;
所述超高频的词汇为第二总词频大于10000的词汇;所述超低频的词汇为第二总词频小于100的词汇;
将单个惩罚词汇的第二词权重乘上协调因子H得到单个惩罚词汇的惩罚词权重;
以惩罚词汇及其惩罚词权重作为惩罚词权重表。
(1.6)以特定语料文本内的词汇及其第一词权重作为第一词权重表。
(2)对待查语句集进行处理,生成满匹配得分表和倒排索引表。
所述步骤(2)具体包括以下子步骤:
(2.1)对于待查语句集中的单条待查语句进行分词,统计该待查语句的词汇数。
(2.2)以所述第一词权重表和惩罚词权重表为依据,对于单条待查语句逐词统计每个词汇的第一词权重或惩罚词权重,并对统计的第一词权重或惩罚词权重进行求和得到单条待查语句的满匹配得分。
(2.3)将待查语句、待查语句的词汇数以及待查语句的满匹配得分作为待查语句的满匹配得分表。
(2.4)对待查语句集中的待查语句和词汇进行倒排索引,生成倒排索引表,所述倒排索引表为所述词汇与对应待查语句的映射表。
(3)用户输入查询语句,求得该查询语句与待查语句集的匹配置信度并进行降序排列。
所述步骤(3)具体包括以下子步骤:
(3.1)用户输入查询语句。
(3.2)对用户输入的查询语句进行分词,并统计该查询语句的词汇数。
(3.3)对用户所输入的查询语句,分词后逐词统计每个词汇的第一词权重或惩罚词权重,并对统计的第一词权重或惩罚词权重进行求和得到查询语句的满匹配得分。
(3.4)查询语句分词后逐词查询所述倒排索引表,召回每个词汇的待查语句作为相关待查语句集;召回过程中,若查询语句的词汇出现重复,对重复词汇只进行一次召回;若待查语句已被一个词汇召回,该待查语句不会被下一个词汇再召回;
随后对每一条召回的待查语句,统计每一条召回的待查语句与查询语句的匹配词汇数和匹配词汇总得分;
并通过查询待查语句的满匹配得分表,得到每一条召回的待查语句的词汇数和满匹配得分。
(3.5)计算查询语句与相关待查语句集中每个召回的待查语句的匹配置信度,所述匹配置信度通过以下公式计算:
Figure 909828DEST_PATH_IMAGE006
(3.6)对求得查询语句和相应待测语句的匹配置信度进行降序排列。
本发明充分考虑未涵盖在特定语料库中的词汇,使用协调因子重构其词权重,并设计合理的计算公式给出令人信服的匹配置信度,从而支撑下游任务的顺利进行。
实施例2
本实施例以实验室园区内虚拟数字人的对话系统作为本发明可应用的一个场景,并做进一步介绍。
对于“实验室园区内虚拟数字人的对话系统”场景的上游问答任务,信息通常以问答对(Question-Answer Pair)的形式预先存储在内存中,如表1所示。
表1:待查语句及其相应的答案
Figure 195316DEST_PATH_IMAGE007
本发明提供一种给出置信度的垂直领域检索方法,包括以下步骤:
(1)在初次启动检索引擎时,生成用来将预存信息生成查询过程中所需要的第一词权重表、惩罚词权重表。
所述步骤(1)具体包括以下子步骤:
(1.1)将特定语料库中的多个文本拼接成单个超大文本,去除单个超大文本中的所有标点符号并进行分词,得到由独立词汇和空格组成的特定语料文本;随后对特定语料文本进行片段切割,得到由相同词汇数构成的语料片段组成的特定语料片段文本;
将通用语料库中的多个文本拼接成单个超大文本,去除单个超大文本中的所有标点符号并进行分词,得到由独立词汇和空格组成的通用语料文本;随后对通用语料文本进行片段切割,得到由相同词汇数构成的语料片段组成的通用语料片段文本。
问答任务中,特定语料库为一些预存的问答对的问题部分的集合。对于问答对中信息的检索我们关心的是用户输入的查询问句与问答对中问句的相似度,找到最相近的问句,从而将该相关问题的答案作为用户输入的问句的答案。该应用场景下的特定语料库为[“最近实验室有什么新闻”“最近食堂新增了什么菜品”“实验室食堂怎么付款”…]这些问题的集合。对每个问题进行分词后得到一个语料片段([“最近 实验室 有 什么 新闻”“最近 食堂 新增 了 什么 菜品”“实验室 食堂 怎么 付款”…])。在本实例中,语料片段数量等同于问题数,即等同于问答对的对数。
而对于通用语料库,以2022年3月的中文维基百科举例,将中文维基百科中的多个文本拼接成单个超大文本,去除单个超大文本中的所有标点符号并进行分词,得到由独立词汇和空格组成的通用语料文本:[“欧几里得 西元前 三 世纪 的 古希腊 数学家 现在被 认为 是 几何 之 父 此画 为 拉斐尔 的 作品 雅典 学院 数学 是 研究 数量…”];随后对通用语料文本进行片段切割,得到由相同词汇数构成的语料片段组成的通用语料片段文本;本实施例中,以10个词汇组成一个通用语料片段文本,例如:“欧几里得 西元前 三 世纪 的 古希腊 数学家 现在 被 认为”和“是 几何 之 父 此画 为 拉斐尔 的作品 雅典”。
而对于特定语料库,例如对于园区内问答任务中的特定语料库,可以将园区内问答任务中的特定语料库的多个文本拼接成单个超大文本,去除单个超大文本中的所有标点符号并进行分词,得到由独立词汇和空格组成的特定语料文本;随后对特定语料文本进行片段切割,得到由相同词汇数构成的语料片段组成的特定语料片段文本。
(1.2)计算特定语料文本的单个词汇在特定语料文本内的第一总词频,即该词汇在特定语料文本内出现的总次数;并计算特定语料文本的单个词汇在特定语料片段文本内的第一最高词频,即该词汇在语料片段内出现的最多次数;
计算通用语料文本的单个词汇在通用语料文本内的第二总词频,即该词汇在通用语料文本内出现的总次数;并计算通用语料文本的单个词汇在通用语料片段文本内的第二最高词频,即该词汇在所有语料片段内出现的最多次数。
(1.3)计算特定语料文本的单个词汇的第一词权重,该词汇的第一词权重=该词汇的第一最高词频/该词汇的第一总词频;
计算通用语料文本的单个词汇的第二词权重,该词汇的第二词权重=该词汇的第二最高词频/该词汇的第二总词频。
在本实施例中,针对第一词权重和第二词权重的计算以“有”为例:
“有”这个词汇在特定语料库中共出现33次,在每个特定语料片段文本中最多出现1次,则“有”的第一词权重为:
Figure 197907DEST_PATH_IMAGE008
“有”这个词汇在通用语料库中,这里的通用语料库指2022年3月的维基百科;“有”这个词汇在通用语料库中共出现797477次,假设在每个通用语料片段文本中最多出现3次,则“有”的第二词权重为:
Figure 252451DEST_PATH_IMAGE009
从数值可直观看出同一词汇在两个语料库中词权重的量级差别,将第二词权重直接作为惩罚词权重显然不合适,第二词权重需要缩放到与第一词权重相对一致的量级,这样惩罚词权重的数值才能有效标识该词汇的重要性。
(1.4)所述特定语料文本和所述通用语料文本相比具有N个重合词汇,计算特定语料文本的调和平均数Tt
Figure 213454DEST_PATH_IMAGE001
,其中,
Figure 986238DEST_PATH_IMAGE002
,mi为第i个重合词汇的第一总词频;计算通用语料文本的调和平均数Qt
Figure 293984DEST_PATH_IMAGE003
,其中,ni为第i个重合词汇的第二总词频;得到协调因子H,
Figure 468614DEST_PATH_IMAGE004
为了方便理解,例如:特定语料文本中总共包含5个词汇,和通用语料文本相比具有4个重合词汇;特定语料文本中5个词汇的词汇信息如表1所示。
表2:5个词汇的词汇信息表
Figure 600518DEST_PATH_IMAGE010
求得特定语料文本的调和平均数
Figure 595019DEST_PATH_IMAGE011
,并求得通用语料文本的调和平均数Qt=2000;随后求得协调因子
Figure 470571DEST_PATH_IMAGE012
;协调因子的直观而不严谨的解释为:通用语料库是特定语料库的多少倍。交集词汇在通用语料库中的总词频平均是该词汇在特定语料库中的总词频的多少倍。即我们需要把通用语料库中词权重计算时总词频项做缩放实现标准化,从而使这些惩罚词的词权重和特定语料库的词权重进行对齐,具备相似的辨识能力。
由于特定语料库和通用语料库的量级差别通常较大,两个语料库中词汇的词频也呈现出量级上的差别;又因为两个语料库词频分布的差异性,即使是交集词汇在分布上差距也不可忽略,故本实施例中使用交集词汇的调和平均数的比值来缩放通用语料库中词权重,而调和平均数可以有效平滑一些词汇的极端词频分布。
(1.5)除去通用语料文本中的所有的重合词汇以及超高频和超低频的词汇,剩余的词汇作为惩罚词汇,将单个惩罚词汇的第二总词频乘上协调因子H得到单个惩罚词汇的惩罚总词频;
所述超高频的词汇为第二总词频大于10000的词汇;所述超低频的词汇为第二总词频小于100的词汇;
将单个惩罚词汇的第二词权重乘上协调因子H得到单个惩罚词汇的惩罚词权重;
以惩罚词汇及其惩罚词权重作为惩罚词权重表。
(1.6)以特定语料文本内的词汇及其第一词权重作为第一词权重表。
(2)对待查语句集进行处理,生成满匹配得分表和倒排索引表;
所述步骤(2)具体包括以下子步骤:
(2.1)对于待查语句集中的单条待查语句进行分词,统计该待查语句的词汇数。
(2.2)以所述第一词权重表和惩罚词权重表为依据,对于单条待查语句逐词统计每个词汇的第一词权重或惩罚词权重,并对统计的第一词权重或惩罚词权重进行求和得到单条待查语句的满匹配得分。
(2.3)将待查语句、待查语句的词汇数以及待查语句的满匹配得分作为待查语句的满匹配得分表。
(2.4)对待查语句集中的待查语句和词汇进行倒排索引,生成倒排索引表,所述倒排索引表为所述词汇与对应待查语句的映射表。
(3)用户输入查询语句,求得该查询语句与待查语句集的匹配置信度并进行降序排列。
所述步骤(3)具体包括以下子步骤:
(3.1)用户输入查询语句;
(3.2)对用户输入的查询语句进行分词,并统计该查询语句的词汇数;
(3.3)对用户所输入的查询语句,分词后逐词统计每个词汇的第一词权重或惩罚词权重,并对统计的第一词权重或惩罚词权重进行求和得到查询语句的满匹配得分;
(3.4)查询语句分词后逐词查询所述倒排索引表,召回每个词汇的待查语句作为相关待查语句集;召回过程中,若查询语句的词汇出现重复,对重复词汇只进行一次召回;若待查语句已被一个词汇召回,该待查语句不会被下一个词汇再召回;
随后对每一条召回的待查语句,统计每一条召回的待查语句与查询语句的匹配词汇数和匹配词汇总得分;
并通过查询待查语句的满匹配得分表,得到每一条召回的待查语句的词汇数和满匹配得分;
(3.5)计算查询语句与相关待查语句集中每个召回的待查语句的匹配置信度,所述匹配置信度通过以下公式计算:
Figure 499707DEST_PATH_IMAGE013
(3.6)对求得查询语句和相应待测语句的匹配置信度进行降序排列。
以用户输入的查询语句为:“最近实验室食堂有什么特色”为例来对步骤(3)进行说明。
对用户输入的查询语句进行分词,分词为“最近” 、“实验室”、“食堂”、“有”、“什么”、“特色”,并统计该查询语句的词汇数为6。
对于查询语句“最近实验室食堂有什么特色”,“最近”的第一词权重为0.12,“实验室”的第一词权重为0.08,“食堂”的第一词权重为0.36,“有”的第一词权重为0.03,“什么”的第一词权重为0.12,“特色”的第一词权重为0.46,6个词汇都没有惩罚词权重,得到查询语句“最近实验室食堂有什么特色”的满匹配得分为1.17:0.12+0.08+0.36+0.03+0.12+0.46=1.17。
查询语句“最近实验室食堂有什么特色”分词后逐词查询所述倒排索引表,召回每个词汇的待查语句作为相关待查语句集;
并通过查询待查语句的满匹配得分表,得到每一条召回的待查语句的词汇数和满匹配得分,如表3所示;
表3:查询语句“最近实验室食堂有什么特色”的相关查询语句集
Figure 536933DEST_PATH_IMAGE014
查询语句“最近实验室食堂有什么特色”的词汇的第一词权重或惩罚词权重、词汇的召回的待查语句、每一条召回的待查语句与查询语句的匹配词汇数和匹配词汇总得分如表4所示。
表4:查询语句“最近实验室食堂有什么特色”的召回情况表
Figure 284309DEST_PATH_IMAGE015
查询语句“最近实验室食堂有什么特色”和待查语句“最近实验室有什么新闻” 来说明如何求得查询语句“最近实验室食堂有什么特色”和“最近实验室有什么新闻”的匹配置信度;查询语句“最近实验室食堂有什么特色”和“最近实验室有什么新闻”的匹配词汇数为4,匹配词汇总得分为0.35;查询语句“最近实验室食堂有什么特色”的词汇数为6,满匹配得分为1.17;通过查询待查语句的满匹配得分表,得到待查语句“最近实验室有什么新闻”的词汇数为5,满匹配得分为0.88;求得查询语句“最近实验室食堂有什么特色” 和待查语句“最近实验室有什么新闻” 的匹配置信度为
Figure 196508DEST_PATH_IMAGE016
同时,并求得查询语句“最近实验室食堂有什么特色” 和待查语句“最近食堂新添了什么规定”的匹配置信度为
Figure 80150DEST_PATH_IMAGE018
求得查询语句“最近实验室食堂有什么特色” 和待查语句“实验室有食堂吗”的匹配置信度为
Figure 553857DEST_PATH_IMAGE020
求得查询语句“最近实验室食堂有什么特色” 和待查语句“实验室食堂怎么付款”的匹配置信度为
Figure 522950DEST_PATH_IMAGE021
求得查询语句“最近实验室食堂有什么特色” 和待查语句“实验室有什么特色”的匹配置信度为
Figure 474725DEST_PATH_IMAGE023
求得查询语句“最近实验室食堂有什么特色” 和待查语句“介绍一下实验室的特色文化”的匹配置信度为
Figure 212874DEST_PATH_IMAGE024
对求得查询语句和相应待测语句的匹配置信度进行降序排列,降序排列为
Figure 857482DEST_PATH_IMAGE025
以用户输入的查询语句为:“最近实验室停车场有什么特色”为例来对步骤(3)进行说明。
对用户输入的查询语句进行分词,分词为“最近”、“实验室”、“停车场”、“有”、“什么”、“特色”,并统计该查询语句的词汇数为6。
对于查询语句“最近实验室停车场有什么特色”,“最近”的第一词权重为0.12,“实验室”的第一词权重为0.08, “停车场”的惩罚词权重为0.56,有”的第一词权重为0.03,“什么”的第一词权重为0.12,“特色”的第一词权重为0.46,“最近”、“实验室”、“有”、“什么”、“特色”无惩罚词权重,“停车场”无第一词权重;得到查询语句“最近实验室停车场有什么特色” 满匹配得分为1.37:0.12+0.08+0.56+0.03+0.12+0.46=1.37.
查询语句“最近实验室停车场有什么特色”分词后逐词查询所述倒排索引表,召回每个词汇的待查语句作为相关待查语句集;
并通过查询待查语句的满匹配得分表,得到每一条召回的待查语句的词汇数和满匹配得分,如表5所示;
表5:查询语句“最近实验室停车场有什么特色”的相关查询语句集
Figure 579451DEST_PATH_IMAGE026
查询语句“最近实验室停车场有什么特色”的词汇的第一词权重或惩罚词权重、词汇的召回的待查语句、每一条召回的待查语句与查询语句的匹配词汇数和匹配词汇总得分如表6所示。
表6:查询语句“最近实验室停车场有什么特色”的召回情况表
Figure 836382DEST_PATH_IMAGE027
查询语句“最近实验室停车场有什么特色”和待查语句“最近实验室有什么新闻”的匹配置信度为
Figure 429037DEST_PATH_IMAGE028
查询语句“最近实验室停车场有什么特色”和待查语句“最近食堂新添了什么规定”的匹配置信度为
Figure 244547DEST_PATH_IMAGE029
查询语句“最近实验室停车场有什么特色”和待查语句“实验室有什么特色”的匹配置信度为
Figure 922653DEST_PATH_IMAGE030
查询语句“最近实验室停车场有什么特色”和待查语句“介绍一下实验室的特色文化”的匹配置信度为
Figure DEST_PATH_IMAGE031
对求得查询语句和相应待测语句的匹配置信度进行降序排列,降序排列为
Figure 12968DEST_PATH_IMAGE032
实施例3
参考图3,作为对一种给出置信度的垂直领域检索方法的实现,本申请提了一种给出置信度的垂直领域检索装置的一个实施例,该装置实施例与图1所示的方法实施例相对应。
如图3所示,一种给出置信度的垂直领域检索装置,包括引擎预备单元和检索单元;
所述引擎预备单元包括
数据预处理模块,用于计算特定语料文本的单个词汇的第一总词频和第一最高词频以及通用语料文本的单个词汇的第二总词频和第二最高词频。
词权重生成模块,用于计算特定语料文本的单个词汇的第一词权重以及通用语料文本的单个词汇的第二词权重。
语料库整合模块,用于生成通用语料文本除去所有的重合词汇的剩余词汇的惩罚词权重;
静态字典生成模块,用于生成惩罚词权重表、第一词权重表、待查语句的满匹配得分表和倒排索引表。
所述检索单元包括
查询语句预处理模块,用于对用户输入的查询语句进行分词,并统计该查询语句的词汇数。
检索与统计模块,用于召回每个词汇的待查语句作为相关待查语句集,统计每一条召回的待查语句与查询语句的匹配词汇数和匹配词汇总得分,并通过查询待查语句的满匹配得分表,得到每一条召回的待查语句的词汇数和满匹配得分。
匹配置信度计算模块,用于计算查询语句与相关待查语句集中每个召回的待查语句的匹配置信度;
排序模块,用于对求得查询语句和相应待测语句的匹配置信度进行降序排列。
实施例4
与前述一种给出置信度的垂直领域检索方法的实施例相对应,本发明还提供了一种给出置信度的垂直领域检索装置的实施例。
参见图4,本发明实施例提供的一种给出置信度的垂直领域检索装置,包括一个或多个处理器,用于实现上述实施例中的一种给出置信度的垂直领域检索方法。
本发明一种给出置信度的垂直领域检索装置的实施例可以应用在任意具备数据处理能力的设备上,该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图4所示,为本发明一种给出置信度的垂直领域检索装置所在任意具备数据处理能力的设备的一种硬件结构图,除了图4所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能,还可以包括其他硬件,对此不再赘述。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本发明实施例还提供一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现上述实施例中的一种给出置信度的垂直领域检索方法。所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元,例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备的外部存储设备,例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card,SMC)、SD卡、闪存卡(Flash Card)等。进一步的,所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据,还可以用于暂时地存储已经输出或者将要输出的数据。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (5)

1.一种给出置信度的垂直领域检索方法,其特征在于,包括以下步骤:
(1)在初次启动检索引擎时,生成用来将预存信息生成查询过程中所需要的第一词权重表、惩罚词权重表;
所述步骤(1)具体包括以下子步骤:
(1.1)将特定语料库中的多个文本拼接成单个超大文本,去除单个超大文本中的所有标点符号并进行分词,得到由独立词汇和空格组成的特定语料文本;随后对特定语料文本进行片段切割,得到由相同词汇数构成的语料片段组成的特定语料片段文本;所述特定语料库:指垂直领域的上游任务所需的语料库;
将通用语料库中的多个文本拼接成单个超大文本,去除单个超大文本中的所有标点符号并进行分词,得到由独立词汇和空格组成的通用语料文本;随后对通用语料文本进行片段切割,得到由相同词汇数构成的语料片段组成的通用语料片段文本;所述通用语料库:指开放域的通用中文语料库;
(1.2)计算特定语料文本的单个词汇在特定语料文本内的第一总词频,即该词汇在特定语料文本内出现的总次数;并计算特定语料文本的单个词汇在特定语料片段文本内的第一最高词频,即该词汇在语料片段内出现的最多次数;
计算通用语料文本的单个词汇在通用语料文本内的第二总词频,即该词汇在通用语料文本内出现的总次数;并计算通用语料文本的单个词汇在通用语料片段文本内的第二最高词频,即该词汇在所有语料片段内出现的最多次数;
(1.3)计算特定语料文本的单个词汇的第一词权重,该词汇的第一词权重=该词汇的第一最高词频/该词汇的第一总词频;
计算通用语料文本的单个词汇的第二词权重,该词汇的第二词权重=该词汇的第二最高词频/该词汇的第二总词频;
(1.4)所述特定语料文本和所述通用语料文本相比具有N个重合词汇,计算特定语料文本的调和平均数Tt
Figure 869251DEST_PATH_IMAGE001
,其中,
Figure 58793DEST_PATH_IMAGE002
,mi为第i个重合词汇的第一总词频;计算通用语料文本的调和平均数Qt
Figure 988703DEST_PATH_IMAGE003
,其中,ni为第i个重合词汇的第二总词频;得到协调因子H,
Figure 684126DEST_PATH_IMAGE004
(1.5)除去通用语料文本中的所有的重合词汇以及超高频和超低频的词汇,剩余的词汇作为惩罚词汇,将单个惩罚词汇的第二总词频乘上协调因子H得到单个惩罚词汇的惩罚总词频;
所述超高频的词汇为第二总词频大于10000的词汇;所述超低频的词汇为第二总词频小于100的词汇;
将单个惩罚词汇的第二词权重乘上协调因子H得到单个惩罚词汇的惩罚词权重;
以惩罚词汇及其惩罚词权重作为惩罚词权重表;
(1.6)以特定语料文本内的词汇及其第一词权重作为第一词权重表;
(2)对待查语句集进行处理,生成待查语句的满匹配得分表和倒排索引表;
所述步骤(2)具体包括以下子步骤:
(2.1)对于待查语句集中的单条待查语句进行分词,统计该待查语句的词汇数;
(2.2)以所述第一词权重表和惩罚词权重表为依据,对于单条待查语句逐词统计每个词汇的第一词权重或惩罚词权重,并对统计的第一词权重或惩罚词权重进行求和得到单条待查语句的满匹配得分;
(2.3)将待查语句、待查语句的词汇数以及待查语句的满匹配得分作为待查语句的满匹配得分表;
(2.4)对待查语句集中的待查语句和词汇进行倒排索引,生成倒排索引表,所述倒排索引表为所述词汇与对应待查语句的映射表;
(3)用户输入查询语句,求得该查询语句与待查语句集的匹配置信度并进行降序排列。
2.根据权利要求1所述的一种给出置信度的垂直领域检索方法,其特征在于,所述步骤(3)具体包括以下子步骤:
(3.1)用户输入查询语句;
(3.2)对用户输入的查询语句进行分词,并统计该查询语句的词汇数;
(3.3)对用户所输入的查询语句,分词后逐词统计每个词汇的第一词权重或惩罚词权重,并对统计的第一词权重或惩罚词权重进行求和得到查询语句的满匹配得分;
(3.4)查询语句分词后逐词查询所述倒排索引表,召回每个词汇的待查语句作为相关待查语句集;召回过程中,若查询语句的词汇出现重复,对重复词汇只进行一次召回;若待查语句已被一个词汇召回,该待查语句不会被下一个词汇再召回;
随后对每一条召回的待查语句,统计每一条召回的待查语句与查询语句的匹配词汇数和匹配词汇总得分;
并通过查询待查语句的满匹配得分表,得到每一条召回的待查语句的词汇数和满匹配得分;
(3.5)计算查询语句与相关待查语句集中每个召回的待查语句的匹配置信度,所述匹配置信度通过以下公式计算:
Figure 378282DEST_PATH_IMAGE006
(3.6)对求得查询语句和相应待测语句的匹配置信度进行降序排列。
3.一种给出置信度的垂直领域检索装置,其特征在于,包括引擎预备单元和检索单元;
所述引擎预备单元包括:
数据预处理模块,用于计算特定语料文本的单个词汇的第一总词频和第一最高词频以及通用语料文本的单个词汇的第二总词频和第二最高词频;将特定语料库中的多个文本拼接成单个超大文本,去除单个超大文本中的所有标点符号并进行分词,得到由独立词汇和空格组成的特定语料文本;随后对特定语料文本进行片段切割,得到由相同词汇数构成的语料片段组成的特定语料片段文本;所述特定语料库:指垂直领域的上游任务所需的语料库;将通用语料库中的多个文本拼接成单个超大文本,去除单个超大文本中的所有标点符号并进行分词,得到由独立词汇和空格组成的通用语料文本;随后对通用语料文本进行片段切割,得到由相同词汇数构成的语料片段组成的通用语料片段文本;所述通用语料库:指开放域的通用中文语料库;计算特定语料文本的单个词汇在特定语料文本内的第一总词频,即该词汇在特定语料文本内出现的总次数;并计算特定语料文本的单个词汇在特定语料片段文本内的第一最高词频,即该词汇在语料片段内出现的最多次数;计算通用语料文本的单个词汇在通用语料文本内的第二总词频,即该词汇在通用语料文本内出现的总次数;并计算通用语料文本的单个词汇在通用语料片段文本内的第二最高词频,即该词汇在所有语料片段内出现的最多次数;
词权重生成模块,用于计算特定语料文本的单个词汇的第一词权重以及通用语料文本的单个词汇的第二词权重;该词汇的第一词权重=该词汇的第一最高词频/该词汇的第一总词频;该词汇的第二词权重=该词汇的第二最高词频/该词汇的第二总词频;
语料库整合模块,用于生成通用语料文本除去所有的重合词汇的剩余词汇的惩罚词权重;所述特定语料文本和所述通用语料文本相比具有N个重合词汇,计算特定语料文本的调和平均数Tt
Figure 794351DEST_PATH_IMAGE001
,其中,
Figure 968980DEST_PATH_IMAGE002
,mi为第i个重合词汇的第一总词频;计算通用语料文本的调和平均数Qt
Figure 756676DEST_PATH_IMAGE003
,其中,ni为第i个重合词汇的第二总词频;得到协调因子H,
Figure 892123DEST_PATH_IMAGE004
;除去通用语料文本中的所有的重合词汇以及超高频和超低频的词汇,剩余的词汇作为惩罚词汇,将单个惩罚词汇的第二总词频乘上协调因子H得到单个惩罚词汇的惩罚总词频;所述超高频的词汇为第二总词频大于10000的词汇;所述超低频的词汇为第二总词频小于100的词汇;将单个惩罚词汇的第二词权重乘上协调因子H得到单个惩罚词汇的惩罚词权重;
静态字典生成模块,用于生成惩罚词权重表、第一词权重表、待查语句的满匹配得分表和倒排索引表;以惩罚词汇及其惩罚词权重作为惩罚词权重表;以特定语料文本内的词汇及其第一词权重作为第一词权重表;对于待查语句集中的单条待查语句进行分词,统计该待查语句的词汇数;以所述第一词权重表和惩罚词权重表为依据,对于单条待查语句逐词统计每个词汇的第一词权重或惩罚词权重,并对统计的第一词权重或惩罚词权重进行求和得到单条待查语句的满匹配得分;将待查语句、待查语句的词汇数以及待查语句的满匹配得分作为待查语句的满匹配得分表;对待查语句集中的待查语句和词汇进行倒排索引,生成倒排索引表,所述倒排索引表为所述词汇与对应待查语句的映射表;
所述检索单元包括:
查询语句预处理模块,用于对用户输入的查询语句进行分词,并统计该查询语句的词汇数;
检索与统计模块,用于召回每个词汇的待查语句作为相关待查语句集,统计每一条召回的待查语句与查询语句的匹配词汇数和匹配词汇总得分,并通过查询待查语句的满匹配得分表,得到每一条召回的待查语句的词汇数和满匹配得分;
匹配置信度计算模块,用于计算查询语句与相关待查语句集中每个召回的待查语句的匹配置信度;
排序模块,用于对求得查询语句和相应待测语句的匹配置信度进行降序排列。
4.一种给出置信度的垂直领域检索装置,其特征在于,包括一个或多个处理器,用于实现权利要求1-2中任一项所述的给出置信度的垂直领域检索方法。
5.一种计算机可读存储介质,其上存储有程序,其特征在于,该程序被处理器执行时,用于实现权利要求1-2中任一项所述的给出置信度的垂直领域检索方法。
CN202210953656.XA 2022-08-10 2022-08-10 一种给出置信度的垂直领域检索方法与装置 Active CN115033594B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210953656.XA CN115033594B (zh) 2022-08-10 2022-08-10 一种给出置信度的垂直领域检索方法与装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210953656.XA CN115033594B (zh) 2022-08-10 2022-08-10 一种给出置信度的垂直领域检索方法与装置

Publications (2)

Publication Number Publication Date
CN115033594A CN115033594A (zh) 2022-09-09
CN115033594B true CN115033594B (zh) 2022-11-18

Family

ID=83131318

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210953656.XA Active CN115033594B (zh) 2022-08-10 2022-08-10 一种给出置信度的垂直领域检索方法与装置

Country Status (1)

Country Link
CN (1) CN115033594B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021226840A1 (zh) * 2020-05-12 2021-11-18 深圳市欢太科技有限公司 热点新闻意图识别方法、装置、设备及可读存储介质
CN114706950A (zh) * 2022-03-30 2022-07-05 易薪路网络科技(上海)有限公司 一种长文本数据检索方法、装置、设备、存储介质
CN114880447A (zh) * 2022-05-13 2022-08-09 平安科技(深圳)有限公司 信息检索方法、装置、设备及存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101271461B (zh) * 2007-03-19 2011-07-13 株式会社东芝 跨语言检索请求的转换及跨语言信息检索方法和系统
US9753975B2 (en) * 2013-07-12 2017-09-05 International Business Machines Corporation Intelligently utilizing non-matching weighted indexes
CN110442760B (zh) * 2019-07-24 2022-02-15 银江技术股份有限公司 一种问答检索系统的同义词挖掘方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021226840A1 (zh) * 2020-05-12 2021-11-18 深圳市欢太科技有限公司 热点新闻意图识别方法、装置、设备及可读存储介质
CN114706950A (zh) * 2022-03-30 2022-07-05 易薪路网络科技(上海)有限公司 一种长文本数据检索方法、装置、设备、存储介质
CN114880447A (zh) * 2022-05-13 2022-08-09 平安科技(深圳)有限公司 信息检索方法、装置、设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
垂直搜索引擎的设计与构建;黄宇;《内蒙古科技与经济》;20200530(第10期);77-78 *
基于主题模型的资源选择算法;董守斌等;《华南理工大学学报(自然科学版)》;20170315(第03期);54-59 *

Also Published As

Publication number Publication date
CN115033594A (zh) 2022-09-09

Similar Documents

Publication Publication Date Title
CN107122413B (zh) 一种基于图模型的关键词提取方法及装置
US10706113B2 (en) Domain review system for identifying entity relationships and corresponding insights
Singh et al. Relevance feedback based query expansion model using Borda count and semantic similarity approach
CN105183833B (zh) 一种基于用户模型的微博文本推荐方法及其推荐装置
WO2021189951A1 (zh) 文本搜索方法、装置、计算机设备和存储介质
CN109885813B (zh) 一种基于词语覆盖度的文本相似度的运算方法及系统
CN109960756B (zh) 新闻事件信息归纳方法
CN111797214A (zh) 基于faq数据库的问题筛选方法、装置、计算机设备及介质
CN107145560B (zh) 一种文本分类方法及装置
CN112329460B (zh) 文本的主题聚类方法、装置、设备及存储介质
US20200073890A1 (en) Intelligent search platforms
WO2022183923A1 (zh) 短语生成方法、装置和计算机可读存储介质
Van Britsom et al. Using data merging techniques for generating multidocument summarizations
CN112632261A (zh) 智能问答方法、装置、设备及存储介质
Zhu et al. Improved information gain feature selection method for Chinese text classification based on word embedding
CN112307182A (zh) 一种基于问答系统的伪相关反馈的扩展查询方法
Toral et al. Improving question answering using named entity recognition
CN115630144B (zh) 一种文档搜索方法、装置及相关设备
CN115033594B (zh) 一种给出置信度的垂直领域检索方法与装置
O'Shea et al. Benchmarking short text semantic similarity
CN115438155A (zh) 一种基于相关性和重要性的文献搜索排序方法及电子设备
CN114329206A (zh) 标题生成方法和装置、电子设备、计算机可读介质
CN114298020A (zh) 一种基于主题语义信息的关键词向量化方法及其应用
CN113761125A (zh) 动态摘要确定方法和装置、计算设备以及计算机存储介质
CN113761104A (zh) 知识图谱中实体关系的检测方法、装置和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant