CN104199965A - 一种语义信息检索方法 - Google Patents

一种语义信息检索方法 Download PDF

Info

Publication number
CN104199965A
CN104199965A CN201410483181.8A CN201410483181A CN104199965A CN 104199965 A CN104199965 A CN 104199965A CN 201410483181 A CN201410483181 A CN 201410483181A CN 104199965 A CN104199965 A CN 104199965A
Authority
CN
China
Prior art keywords
conceptualization
word
text
semantic
statement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410483181.8A
Other languages
English (en)
Other versions
CN104199965B (zh
Inventor
吴晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201410483181.8A priority Critical patent/CN104199965B/zh
Publication of CN104199965A publication Critical patent/CN104199965A/zh
Application granted granted Critical
Publication of CN104199965B publication Critical patent/CN104199965B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

发明公开了一种语义信息检索方法,该方法包括:接收用户提交的查询词,通过分词处理得到该查询词中所包含的关键词;依据关键词之间的语义关系,进行查询分析,将其转换为概念表达;从存储介质中以篇为单位读取待检索文本;对待检索文本进行分句分词,把读取的文本切分为语句、词语;对语句进行语义分析,得到语句的概念类别和词语的概念表达;计算上述获取的查询词的概念表达与待检索文本的概念表达之间的语义距离;依据语义距离由近及远排序,返回查询结果。与传统信息检索方法通过词语匹配得到的检索结果相比,可以有效提升检索结果的准确性。

Description

一种语义信息检索方法
技术领域
本发明涉及互联网技术领域,尤其是一种语义信息检索方法。
背景技术
信息检索的发展到现在已经经历了两代。第一代信息检索是人工分目录检索;第二代是计算机依靠算法实现的以关键词检索为主要表现的自动信息检索。第二代检索的主要技术特征为概率统计算法在检索中取得的成功。这一技术的出现无疑莫定了检索技术发展的一个重要里程碑,基本方法为对文本进行分词,同时构建由词语作为特征的文本特征向量,并建立倒排索引供查询匹配使用。另一方面,将用户输入的检索请求也表示为特征向量,计算两者之间的余弦距离,或者计算当出现检索特征向量时出现文本特征向量的概率值,并将结果从高到低排序,作为检索返回结果。比如,专利号CN102023989公开了一种信息检索方法及系统,所述方法包括:接收查询词,通过分词处理得到该查询词中所包含的关键词,通过所述信息检索系统的倒排索引数据查找与所述关键词匹配的文本,以及与所述文本对应的正排索引数据,根据所述文本对应的正排索引数据确定出所述文本的摘要,将所述文本的摘要以及文本的信息作为检索结果进行输出。通过此方法进而解决检索效率低的问题;专利号CN103365910A公开了一种信息检索的方法和系统,所述方法利用QA词表扩展检索关键词,从而提升检索的覆盖率;专利号CN103383701A公开了一种信息检索方法、装置及终端,所述方法通过历史检索记录来对当前输入关键词进行补全从而降低用户输入的难度,扩充检索结果。
采用概率统计算法实现检索的最大优势在于:已有相当多成熟、可供利用的数学模型,同时算法实现的方案明确、复杂度不高、易于工程化。
然而,这些方法都无一例外的将词语作为处理对象,并将其看作相互独立的离散符号,即一个词语的出现与其它词语的出现相互独立,这就不可避免地存在处理上的欠缺,以篇章为单元、以词语为单位的数据集合无法满足概率统计模型对数据无关性的要求。这已经成为影响当前信息检索效能进一步提高的瓶颈。 
发明内容
为了解决以上问题,本发明提供了一种基于语义的信息检索方法,目的是充分利用上下文中蕴含的丰富语义知识来提升信息检索的效能。该方法通过自然语言理解手段获取词汇及语句的形式化语义表示,并在这基础上结合一定的统计模型实现信息检索。
所述技术方案如下:
接收用户提交的查询词,通过分词处理得到该查询词中所包含的关键词;
依据关键词之间的语义关系,进行查询分析,将关键词转换为概念表达;
从存储介质中以篇为单位读取待检索文本;
对待检索文本进行分句分词,把读取的文本切分为语句、词语;
对语句进行语义分析,得到语句的概念类别和词语的概念表达;
计算上述获取的查询词的概念表达与待检索文本的概念表达之间的语义距离;
依据语义距离由近及远排序,返回查询结果。
本发明提供的技术方案的有益效果是:
基于对语义的概念表示,通过语句语义分析获取检索词以及待检索文本的概念表达,利用概念之间的相关性和统计特性,计算两者之间的语义距离来实现高效的信息检索,与传统信息检索方法通过词语匹配得到的检索结果相比,可以有效提升检索结果的准确性。
附图说明
本发明将通过例子并参照附图的方式说明,其中:
图1是本发明语义信息检索方法流程图;
图2是本发明语义距离计算的流程图;
图3 语句语义理解结果示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明实施方式作进一步地详细描述:
本实施例提供了一种信息检索方法方法,如图1所示,该方法包括:
步骤10接收用户提交的查询词,通过分词处理得到该查询词中所包含的关键词;
查询词可以是单个词或多个词或词句,还可以是通过关系运算符(and, or等)连接的多个单词(或词句)。通过分词处理得到该查询词中所包含的关键词,并过滤掉停用词,比如:的、是。
步骤20依据关键词之间的语义关系,进行查询分析,将关键词转换为概念表达;
首先,将上述步骤获得的关键词读入到候选数组,假设由n个关键词组成,                                                
其次,从词语知识库中选取查询关键字的所有候选义项的概念表达,假设有k个,将它们读入到新的数组,其中,1<=i<=nk表示查询关键字的候选概念表达的序号;
如果HasRelation() ==true,即之间被定义了语义相关性, 其中  则,从词语知识库中返回两者之间的相关度值R();否则两者之间相关度设为零;
获取使得最优的一组数组概念表达 以及对应的值。
其中,词语知识库由人工预先维护好,词语知识库中包含:义项数:为词语可能对应的概念数;概念符号:概念表达,为词语所对应的概念;句类代码:为该词语所能激活的语句的句类表示式代码; 语义相关性:为该词语概念表达与其他存在相关性词语对应的概念表达之间的相关性度量值。
 下表给出了一个词语知识库的实施示例。
步骤30从存储介质中以篇为单位读取待检索文本;
步骤40对待检索文本进行分句分词,把读取的文本切分为语句、词语;
以文本的“回车、换行、句号、问号、叹号和分号” 等字符为切分点,把文本切分成若干个语句。再通过逆向最大匹配法,依据词语知识库中词语,将语句切分为若干词语。
步骤50对语句进行语义分析,得到语句的概念类别和词语的概念表达;
对于每一个语句,依据词语知识库,分析语句得到语句的概念类别和各词语所映射的概念(Term concept), 语句的概念类别用句类表示式(SCE)来表示。
具体地,语义分析的流程为:
依据词语知识库,从语句中挑选一个特征词语;
从词语知识库中获取该特征词语所能激活的语句的句类表示式;
提出假设,假设上述表示式就是本语句的句类表示式;
寻找语句中的其他词语是否存在这样一组概念表达,使得句类表示式对他们的语义要求都满足;
如果满足,则假设成立,语义分析成功,输出句类表示式以及各组成词语所映射的概念表达;
如果不满足,则重新寻找语句中的特征词语,直至语义分析成功,或者所有假设都不成立,输出语义分析失败。
在本实施例中,如果语义分析失败,该语句将跳过不再做处理。
图3给出了一个经过语义分析后所得到的语句理解结果,处理结果包括了语句的句类表示式(SCE)以及各元素所映射的概念(Term concept)。其中,原语句之上的“||”为主语义块划分标志,“||~”和“~||”为辅语义块划分标志。“SB+S+SC+Cn1+Cn2”为句类表达式(SCE),句类表达式的模式是预先设置好的,该表达式表明了该语句是一个状态句,描述了一种状态。句类表达式中的各个语义块与语句之中的词语的对应关系已经由箭头指出。图中同时指出了语句中的每个词语对应的概念表达式(Term concept)。
步骤60计算上述获取的查询词的概念表达与待检索文本的概念表达之间的语义距离;
具体地,语义距离计算的方法如图2所示。
步骤201计算全局模型下,待检索文本与检索词概念表达之间的语义距离。用文本出现某个概念表达的概率来表示,具体计算公式为:
其中,   ;
其中,p为基于Kullback-Leibler算法生成的文本聚类;
是文本d和聚类p之间的K-L距离;
为概念表达在文本d中的权重,为文本d中出现的概念表达t的数量;
 为文本d中出现的所有概念表达的数量。
,度量的是概念表达t在聚类p中的出现的数量;
为聚类p中出现的概念表达t的数量;
p中出现的所有概念表达的数量。
步骤202计算局部模型下,待检索文本与检索词概念表达之间的语义距离;
   具体方法为:度量某个文本,在某个领域下,独立产生某个概念表达的可能性。采用了泊松分布(Poisson distribution)模型对模型的风险进行了模型化,采用泊松分布模型的原因是其较好的反映了词条分布模型。
具体计算公式为:
其中,
为文本出现概念表达t的次数;
为文本中所有概念表达的数量;
为出现概念表达t的文本的数量;
其中,为文本中出现概念表达t的数量;
为该文本所在聚类中概念表达t出现的次数。
步骤203采用差值方法将局部模型和全局模型进行平滑,计算最终待检索文本与检索词之间的语义距离;
具体公式为:
其中,
表示出现查询条件Q的情况下出现某一个概念表达T的可能性最大;
为平滑参数;
T为所有概念表达t的集合,Q为所有查询词的概念表达的集合,即q的集合;
表示查询q被翻译成了相应的概念表达t
Q表示查询条件;
T表示查询条件对应的概念表达;
表示查询条件Q中第i个关键词;
表示第i个关键词所对应的第j个候选概念表达。
步骤70依据语义距离由近及远排序,返回查询结果;
具体地,计算每一个文本产生查询条件的可能性,可能性越大则语义距离越近,并对文本按语义距离由近及远进行排序,返回查询结果d的排序后集合。
以上所述实施方式仅仅是对本发明的优选实施方式进行描述,并非对本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通技术人员对本发明的技术方案作出的各种变形和改进,均应落入本发明的权利要求书确定的保护范围内。

Claims (10)

1.一种语义信息检索方法,包括:接收用户提交的查询词,通过分词处理得到该查询词中所包含的关键词;依据关键词之间的语义关系,进行查询分析,将其转换为概念表达;从存储介质中以篇为单位读取待检索文本;对待检索文本进行分句分词,把读取的文本切分为语句、词语;对语句进行语义分析,得到语句的概念类别和词语的概念表达;计算上述获取的查询词的概念表达与待检索文本的概念表达之间的语义距离;依据语义距离由近及远排序,返回查询结果。
2.根据权利要求1所述的语义信息检索方法,其特征在于,查询词可以是单个词或多个词或词句,还可以是通过关系运算符(and, or等)连接的多个单词(或词句)。
3.根据权利要求1所述的语义信息检索方法,其特征在于,将关键词转换为概念表达的具体流程为:
将上述步骤获得的关键词读入到候选数组,假设由n个关键词组成,                                                
从词语知识库中选取查询关键字的所有候选义项的概念表达,假设有k个,将它们读入到新的数组,其中,1<=i<=nk表示查询关键字的候选概念表达的序号;
如果HasRelation() ==true,即之间被定义了语义相关性, 其中  则,从词语知识库中返回两者之间的相关度值R();否则两者之间相关度设为零;
获取使得最优的一组数组概念表达 以及对应的值。
4.根据权利要求1所述的语义信息检索方法,其特征在于,对语句进行语义分析的具体流程为:
依据词语知识库,从语句中挑选一个特征词语;
从词语知识库中获取该特征词语所能激活的语句的句类表示式;
提出假设,假设上述表示式就是本语句的句类表示式;
寻找语句中的其他词语是否存在这样一组概念表达,使得句类表示式对他们的语义要求都满足;
如果满足,则假设成立,语义分析成功,输出句类表示式以及各组成词语所映射的概念表达;
如果不满足,则重新寻找语句中的特征词语,直至语义分析成功,或者所有假设都不成立,输出语义分析失败。
5.根据权利要求3、4所述的语义信息检索方法,其特征在于,词语知识库由人工预先维护好,词语知识库中包含:义项数:为词语可能对应的概念数;概念符号:概念表达,为词语所对应的概念;句类代码:为该词语所能激活的语句的句类表示式代码;语义相关性:为该词语概念表达与其他存在相关性词语对应的概念表达之间的相关性度量值。
6.根据权利要求1所述的语义信息检索方法,其特征在于,语义距离计算的方法为:
       计算全局模型下,待检索文本与检索词概念表达之间的语义距离;
       计算局部模型下,待检索文本与检索词概念表达之间的语义距离;
       采用差值方法将局部模型和全局模型进行平滑,计算最终待检索文本与检索词之间的语义距离。
7.根据权利要求6所述的语义信息检索方法,其特征在于,全局模型下,待检索文本与检索词概念表达之间的语义距离,具体计算公式为:
其中,  ;
    ,度量的是概念表达t在聚类p中的出现的数量;
为聚类p中出现的概念表达t的数量;
p中出现的所有概念表达的数量。
8.根据权利要求7所述的语义信息检索方法,其特征在于,p为基于Kullback-Leibler算法生成的文本聚类;是文本d和聚类p之间的K-L距离,具体计算公式为:
其中, 为概念表达在文本d中的权重,为文本d中出现的概念表达t的数量;
 为文本d中出现的所有概念表达的数量。
9.根据权利要求6所述的语义信息检索方法,其特征在于,局部模型下,待检索文本与检索词概念表达之间的语义距离,具体计算公式为:
其中,
为文本出现概念表达t的次数;
为文本中所有概念表达的数量;
为出现概念表达t的文本的数量;
其中,为文本中出现概念表达t的数量;
为该文本所在聚类中概念表达t出现的次数。
10.根据权利要求4所述的语义信息检索方法,其特征在于,采用差值方法将局部模型和全局模型进行平滑,计算最终待检索文本与检索词之间的语义距离,具体公式为:
其中,
表示出现查询条件Q的情况下出现某一个概念表达T的可能性最大;
为平滑参数;
T为所有概念表达t的集合,Q为所有查询词的概念表达的集合,即q的集合;
表示查询q被翻译成了相应的概念表达t
Q表示查询条件;
T表示查询条件对应的概念表达;
表示查询条件Q中第i个关键词;
表示第i个关键词所对应的第j个候选概念表达。
CN201410483181.8A 2014-09-22 2014-09-22 一种语义信息检索方法 Active CN104199965B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410483181.8A CN104199965B (zh) 2014-09-22 2014-09-22 一种语义信息检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410483181.8A CN104199965B (zh) 2014-09-22 2014-09-22 一种语义信息检索方法

Publications (2)

Publication Number Publication Date
CN104199965A true CN104199965A (zh) 2014-12-10
CN104199965B CN104199965B (zh) 2020-08-07

Family

ID=52085258

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410483181.8A Active CN104199965B (zh) 2014-09-22 2014-09-22 一种语义信息检索方法

Country Status (1)

Country Link
CN (1) CN104199965B (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105512300A (zh) * 2015-12-11 2016-04-20 宁波中青华云新媒体科技有限公司 信息过滤方法及系统
WO2016112679A1 (zh) * 2015-01-14 2016-07-21 百度在线网络技术(北京)有限公司 实现智能问答的方法、系统和存储介质
WO2016131260A1 (zh) * 2015-07-15 2016-08-25 中兴通讯股份有限公司 一种文字处理方法和装置
CN106095818A (zh) * 2016-05-31 2016-11-09 深圳市永兴元科技有限公司 联系人的查询方法和装置
CN106412196A (zh) * 2016-05-31 2017-02-15 深圳市永兴元科技有限公司 联系人信息处理方法和装置
CN107066464A (zh) * 2016-01-13 2017-08-18 奥多比公司 语义自然语言向量空间
CN107704453A (zh) * 2017-10-23 2018-02-16 深圳市前海众兴电子商务有限公司 一种文字语义分析方法、文字语义分析终端及存储介质
CN107885801A (zh) * 2017-10-31 2018-04-06 上海博泰悦臻网络技术服务有限公司 多层次信息检索的方法、导航终端及存储介质
CN108491183A (zh) * 2018-04-04 2018-09-04 联想(北京)有限公司 一种信息处理方法和电子设备
CN108733760A (zh) * 2017-04-25 2018-11-02 松下知识产权经营株式会社 检索方法、检索装置以及程序
CN109543096A (zh) * 2018-10-15 2019-03-29 平安科技(深圳)有限公司 数据查询方法、装置、计算机设备和存储介质
CN110276071A (zh) * 2019-05-24 2019-09-24 众安在线财产保险股份有限公司 一种文本匹配方法、装置、计算机设备及存储介质
CN110532354A (zh) * 2019-08-27 2019-12-03 腾讯科技(深圳)有限公司 内容的检索方法及装置
CN112236768A (zh) * 2018-06-04 2021-01-15 环球娱乐株式会社 搜索文本生成系统和搜索文本生成方法
CN112926300A (zh) * 2021-03-31 2021-06-08 深圳市优必选科技股份有限公司 图像搜索方法、图像搜索装置及终端设备
CN113139048A (zh) * 2021-04-19 2021-07-20 中国人民解放军91054部队 一种检索结果提供方法及系统
CN113704397A (zh) * 2021-08-05 2021-11-26 北京百度网讯科技有限公司 检索方法、装置、电子设备以及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101937462A (zh) * 2010-09-03 2011-01-05 中国科学院声学研究所 文献自动评价方法及系统
CN103838833A (zh) * 2014-02-24 2014-06-04 华中师范大学 基于相关词语语义分析的全文检索系统
CN104008090A (zh) * 2014-04-29 2014-08-27 河海大学 一种基于概念向量模型的多主题提取方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101937462A (zh) * 2010-09-03 2011-01-05 中国科学院声学研究所 文献自动评价方法及系统
CN103838833A (zh) * 2014-02-24 2014-06-04 华中师范大学 基于相关词语语义分析的全文检索系统
CN104008090A (zh) * 2014-04-29 2014-08-27 河海大学 一种基于概念向量模型的多主题提取方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
马中杰 等: "一种基于知识库的语义检索系统模型", 《微型机与应用》 *

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016112679A1 (zh) * 2015-01-14 2016-07-21 百度在线网络技术(北京)有限公司 实现智能问答的方法、系统和存储介质
JP2017511922A (ja) * 2015-01-14 2017-04-27 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド スマート質問回答の実現方法、システム、および記憶媒体
US10242049B2 (en) 2015-01-14 2019-03-26 Baidu Online Network Technology (Beijing) Co., Ltd. Method, system and storage medium for implementing intelligent question answering
WO2016131260A1 (zh) * 2015-07-15 2016-08-25 中兴通讯股份有限公司 一种文字处理方法和装置
CN105512300B (zh) * 2015-12-11 2019-01-22 宁波中青华云新媒体科技有限公司 信息过滤方法及系统
CN105512300A (zh) * 2015-12-11 2016-04-20 宁波中青华云新媒体科技有限公司 信息过滤方法及系统
CN107066464B (zh) * 2016-01-13 2022-12-27 奥多比公司 语义自然语言向量空间
CN107066464A (zh) * 2016-01-13 2017-08-18 奥多比公司 语义自然语言向量空间
CN106412196A (zh) * 2016-05-31 2017-02-15 深圳市永兴元科技有限公司 联系人信息处理方法和装置
CN106095818A (zh) * 2016-05-31 2016-11-09 深圳市永兴元科技有限公司 联系人的查询方法和装置
CN108733760A (zh) * 2017-04-25 2018-11-02 松下知识产权经营株式会社 检索方法、检索装置以及程序
CN108733760B (zh) * 2017-04-25 2023-05-12 松下知识产权经营株式会社 检索方法、检索装置以及程序
CN107704453A (zh) * 2017-10-23 2018-02-16 深圳市前海众兴电子商务有限公司 一种文字语义分析方法、文字语义分析终端及存储介质
CN107885801A (zh) * 2017-10-31 2018-04-06 上海博泰悦臻网络技术服务有限公司 多层次信息检索的方法、导航终端及存储介质
CN107885801B (zh) * 2017-10-31 2024-02-02 上海博泰悦臻网络技术服务有限公司 多层次信息检索的方法、导航终端及存储介质
CN108491183A (zh) * 2018-04-04 2018-09-04 联想(北京)有限公司 一种信息处理方法和电子设备
CN108491183B (zh) * 2018-04-04 2021-01-15 联想(北京)有限公司 一种信息处理方法和电子设备
CN112236768A (zh) * 2018-06-04 2021-01-15 环球娱乐株式会社 搜索文本生成系统和搜索文本生成方法
CN109543096A (zh) * 2018-10-15 2019-03-29 平安科技(深圳)有限公司 数据查询方法、装置、计算机设备和存储介质
CN110276071A (zh) * 2019-05-24 2019-09-24 众安在线财产保险股份有限公司 一种文本匹配方法、装置、计算机设备及存储介质
CN110276071B (zh) * 2019-05-24 2023-10-13 众安在线财产保险股份有限公司 一种文本匹配方法、装置、计算机设备及存储介质
CN110532354B (zh) * 2019-08-27 2023-01-06 腾讯科技(深圳)有限公司 内容的检索方法及装置
CN110532354A (zh) * 2019-08-27 2019-12-03 腾讯科技(深圳)有限公司 内容的检索方法及装置
CN112926300A (zh) * 2021-03-31 2021-06-08 深圳市优必选科技股份有限公司 图像搜索方法、图像搜索装置及终端设备
CN113139048B (zh) * 2021-04-19 2022-11-04 中国人民解放军91054部队 一种检索结果提供方法及系统
CN113139048A (zh) * 2021-04-19 2021-07-20 中国人民解放军91054部队 一种检索结果提供方法及系统
CN113704397A (zh) * 2021-08-05 2021-11-26 北京百度网讯科技有限公司 检索方法、装置、电子设备以及存储介质
CN113704397B (zh) * 2021-08-05 2024-01-09 北京百度网讯科技有限公司 检索方法、装置、电子设备以及存储介质

Also Published As

Publication number Publication date
CN104199965B (zh) 2020-08-07

Similar Documents

Publication Publication Date Title
CN104199965A (zh) 一种语义信息检索方法
CN108304375B (zh) 一种信息识别方法及其设备、存储介质、终端
CN107862070B (zh) 基于文本聚类的线上课堂讨论短文本即时分组方法及系统
CN102479191B (zh) 提供多粒度分词结果的方法及其装置
CN110019732B (zh) 一种智能问答方法以及相关装置
CN107122413A (zh) 一种基于图模型的关键词提取方法及装置
CN112667794A (zh) 一种基于孪生网络bert模型的智能问答匹配方法及系统
CN112035730B (zh) 一种语义检索方法、装置及电子设备
CN101510222A (zh) 一种多层索引语音文档检索方法及其系统
CN108038099B (zh) 基于词聚类的低频关键词识别方法
CN110134777B (zh) 问题去重方法、装置、电子设备和计算机可读存储介质
CN108875065B (zh) 一种基于内容的印尼新闻网页推荐方法
WO2012159558A1 (zh) 基于语意识别的自然语言处理方法、装置和系统
CN112328800A (zh) 自动生成编程规范问题答案的系统及方法
CN106649605B (zh) 一种推广关键词的触发方法及装置
CN109522396B (zh) 一种面向国防科技领域的知识处理方法及系统
CN112860898B (zh) 一种短文本框聚类方法、系统、设备及存储介质
CN111625621A (zh) 一种文档检索方法、装置、电子设备及存储介质
CN113268615A (zh) 资源标签生成方法、装置、电子设备及存储介质
CN111090994A (zh) 一种面向中文网络论坛文本的事件地点归属省份识别方法
CN109213998A (zh) 中文错字检测方法及系统
CN116662518A (zh) 问答方法、装置、电子设备及可读存储介质
CN114491062B (zh) 一种融合知识图谱和主题模型的短文本分类方法
CN108345694B (zh) 一种基于主题数据库的文献检索方法及系统
CN110705285B (zh) 一种政务文本主题词库构建方法、装置、服务器及可读存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant