CN101510221B - 一种用于信息检索的查询语句分析方法与系统 - Google Patents

一种用于信息检索的查询语句分析方法与系统 Download PDF

Info

Publication number
CN101510221B
CN101510221B CN2009101318260A CN200910131826A CN101510221B CN 101510221 B CN101510221 B CN 101510221B CN 2009101318260 A CN2009101318260 A CN 2009101318260A CN 200910131826 A CN200910131826 A CN 200910131826A CN 101510221 B CN101510221 B CN 101510221B
Authority
CN
China
Prior art keywords
word
sentence
speech
meaning
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2009101318260A
Other languages
English (en)
Other versions
CN101510221A (zh
Inventor
吴玺宏
迟惠生
罗定生
林小俊
张猛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CN2009101318260A priority Critical patent/CN101510221B/zh
Publication of CN101510221A publication Critical patent/CN101510221A/zh
Application granted granted Critical
Publication of CN101510221B publication Critical patent/CN101510221B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种基于自然语言理解的查询语句分析方法与系统,属于信息检索技术领域。本发明的方法为:1)对输入的中文查询语句进行自动分词、命名实体识别和词性标注;2)对分词后的句子进行句法结构分析,得到句法结构树;根据词性标注后的句子确定每个词的词义;3)根据句子的句法结构和每个词的词义,对句子中谓词进行语义角色标注;4)根据上述对句子在词法、句法和语义层上的分析结果扩充关键词,提取能反映用户信息检索需求的关键词。本发明的系统包括词法分析模块、句法分析模块、语义分析模块和关键词提取模块。本发明可以大大提高查询结果的准确率,使用户得到想要的查询结果。

Description

一种用于信息检索的查询语句分析方法与系统
技术领域
本发明涉及信息检索技术领域,具体涉及一种基于自然语言理解的查询语句分析方法与系统。 
背景技术
随着互联网在全球范围内的迅速发展与成熟,网络上的信息资源不断丰富,信息数据量也在飞速膨胀。在当今社会中,通过搜索引擎上网查信息已成为现代人的主要信息获取方式。于是,为用户提供更加便捷而有效的查询服务,便成为搜索引擎技术在当今和未来的发展方向。 
目前大多数搜索引擎所接受的查询方式仍是关键词查询。这种查询方式要求用户将个人的查询意图概括为几个最有效的词汇,这不仅增加了用户的负担,而且会带来一定的查询歧义。例如,现如今当用户在某一搜索引擎中输入关键词“苹果”,返回的检索结果中排在前几位的条目很可能都是关于苹果电脑的信息。如果用户想购买苹果笔记本,那么检索结果会符合他的期望。然而,如果用户想了解“苹果的营养价值”,那么这些结果则明显地“答非所问”了。 
未来更具智能化的搜索引擎应支持用户以自然语言方式进行语句查询。这种像日常对话一样的查询方式不仅能使用户感到方便自然,而且还能够根据上下文语境判断用户的查询意图,克服查询歧义问题。 
基于当前的自然语言处理技术,可以通过对用户输入的查询语句进行自动分析,在理解用户信息需求的基础上,确定出合适的无歧义的关键词检索项。近年来,自然语言处理的研究取得了很多突破性的进展。词法、句法和语义分析技术的进步使得自然语言处理技术在机器翻译、信息检索等领域得到了广泛的应用。目前已经有一些基于自然语言理解的查询分析系统(参考:申请号:200810046936、申请日:2008-02-26、申请人:华中科技大学、发明名称:基于自然语言的全文检索系统,的中国专利申请),这些系统通过对查询语句的分析,得到语句中的词义,再利用外部词典或本体库进行关键词的扩展。然而,这些系统仅仅在词汇的层次上进行词义分析,这还不足以明确用户的查询需求,还应进一步从句子的层次上进行句法和语义的分析。 
发明内容
本发明的目的在于提供一种用于信息检索的查询语句分析方法与系统。 
本发明用于中文信息检索系统的用户查询分析中。发明中所阐述的方法通过对用户输入的查询语句进行分析,在理解用户查询意图的基础上,提取有效且无歧义的检索关键词。与当前主流的关键词查询方式相比,本发明能够为信息搜索用户提供更加便捷自然的查询方式,而且能够克服关键词检索的查询歧义问题。 
对自然语言描述的查询进行分析理解,存在着很多技术难点,而这些技术难点正是本发明要重点解决的问题,同时,将这些技术结合在一起,进一步的引入语义角色标注技术,来理解用户的检索查询需求,最终找到合适的检索关键词是本发明的创新和贡献之所在。 
本发明基于自然语言处理技术,设计了面向自然语言式信息查询语句的分析系统。系统的整体框架见附图1。 
系统主要包括词法分析、句法分析、语义分析和关键词提取四个模块,下面将分别予以介绍: 
1、词法分析 
该模块对输入的中文查询语句进行自动分词、命名实体识别和词性标注。 
分词是对查询语句进行自动分析和理解的基础。分词的同时还要识别人名、地名、机构名这些命名实体,它们不仅含有事件的关键信息,同时还和汉语分词有着紧密的联系。很多命名实体恰为分词中很难处理的未登录词,而分词的结果也很大程度地影响着命名实体识别的性能。目前大多采取将分词和命名体识别视为一个序列标注任务同时实现,因而可以采用统计机器学习中的最大熵(Maximum Entropy,ME)、最大熵马尔科夫(MaximumEntropy Markov Models,MEMM)或条件随机场(Conditional Random Fields,CRF)等序列标注模型,给句子中的每个字标记字在词中的位置和实体类别,进而转化成分词结果并识别出命名实体。 
词性标注,即将词语进行分类,可以将句子中具体词的组合关系抽象成词类之间的组合关系,进而可能更容易得到句法结构的规律。一个词的不同词性往往对应不同的含义,所以确定词的词性对于分析词和句子的语义也是很重要的。词性标注也可视为序列标注问题,故可以采用上述的分类器或序列标注模型。模型通过带词性标注的语料训练参数,再对输入的词序列识别词性。 
2、句法分析 
该模块以分词后的句子作为输入,对句子的句法结构进行分析。 
句法分析是保证各种应用系统能够在内容层面处理自然语言的核心技术。所谓句法分析,就是指根据给定的语法,自动地识别出句子所包含的句法单位和这些句法单位之间的关系。句法分析对于理解整句的含义有着非常重要的作用。 
本发明实现了基于概率上下文无关文法(Probabilistic Context Free Grammar,PCFG)的句法分析系统(参考文献:Slav Petrov and Dan Klein.Improved Inference for UnlexicalizedParsing.In Proceedings of HLT/NAACL,2007.),它通过统计得到一套描述句法结构的文法模型,其中包括文法规则和规则的概率分布,从而利用得到的文法模型对于输入的句子进行分析,得到句法结构树。模型需要利用人工标注的标准树库资源进行训练。目前,用于中文句法分析的标准树库有美国宾州大学的中文树库和中国清华大学的中文树库。 
3、语义分析 
该模块包括词义消歧和语义角色标注两个子模块。 
由于自然语言中一词多义现象普遍存在,因此,要让计算机正确地分析和理解自然语言,一个重要的前提条件就是能够在某个特定上下文中,自动排除歧义,确定多义词的意义,即所谓的词义消歧。 
词义消歧子模块以词性标注后的句子作为输入,采用知网(HowNet)的义原表示体系(参考:Dong Z,Dong Q.HowNet,http://www.keenage.com/zhiwang/e_zhiwang.html),将每个词的词义用义原,以及义原和义原之间的关系来进行描述。一个句子的每个词有一个或多个含义,这样就存在多个可能的语义的组合,从而形成了一个类似于词网的结构。我们把网中节点之间的距离定义为相应的义原之间的距离,距离越短,说明这两个义原之间的相关性越大。这样,我们通过动态规划算法,搜索到一条距离最短的路径。这样一种搜索策略反映的是基于整句的词与词之间的语义关系,来确定每个词的意义。 
词义消歧仅仅是在词汇层上进行语义分析,对于查询理解而言,还需要在句子层面上进行正确的语义分析,才能更准确的理解查询意图。为此,本发明对句法分析后的句子进行语义角色标注。语义角色标注,指的是根据句子的句法结构和句中每个实词的词义,标注句子中的一些成分作为目标动词(谓词)的语义角色,这些成分作为谓词的参数被赋予一定的语义含义。在此基础之上可以推导出能够反映句子意义的形式化表示,从而实现句子层的分析和理解。例如,对于句子:“张三吃了苹果”和“苹果被张三吃了”,虽然它们的表述形式不同,但表示成语义的形式就统一为:“吃(张三,苹果)”。 
本发明采用基于分类器的语义角色标注方法。该子模块建立在完全句法分析基础之上,以句子中的动词作为目标谓词,把句法成分作为语义标注的基本单元,用最大熵、支持向量机等分类器对句子中谓词的语义角色同时进行识别和分类。 
4、关键词提取 
根据对查询句子的在词法、句法和语义层上的分析,提取能反映用户信息检索需求的关键词。 
命名实体识别模块 识别出的人名,地名,机构名含有时间描述的关键信息,需要进行检索,而且赋予较高的权重。利用句法分析模块 ,提取主要短语的中心词作为关键词。根据语义角色标注 的结果,提取出查询句子中和目标动词相关的各种角色,根据对目标动词的预划分的类别和与其相关的语义角色,抽取选出不同的语义角色对应的词组,并赋予不同的权重。仅仅利用句子中抽取出来的关键词是不够的,还需要结合词义消歧的结果从知网等资源中抽取和这些词语义近似或相关的词,进行查询扩展,这一方面进一步明确了词的语义,还避免了同一个概念可以用不同的词来描述的问题。提取出的关键词可以直接用在现有的信息检索系统中,通过构建能明确反映用户需求的查询,得到用户期望的检索结果。分配出的权重可以用在进一步的分析处理或其他的系统中。 
如果查询面对的不是倒排索引这样的非结构化数据,而是结构化数据,则利用语义角色标注分析出的句子语义的形式化描述,检索数据项,从而得到更准确的检索结果。 
本发明的积极效果为: 
本发明所提出的解决方案不仅利用了自然语言处理的词法分析、句法分析、词义消歧技术,而且还引入语义角色标注技术,对用户用于描述检索需求的查询语句进行分析和理解。在目前的通用搜索引擎中,查询面向的数据是无结构的索引文件,那么通过分析查询语句中词与词之间的语义关系,抽取出合适的关键词并赋予相应的权重,再利用这些关键词和搜索引擎提供的高级搜索语法进行检索,从而得到用户期望的检索结果。如果面对的是结构化数据,那么就可以利用分析后的语义表示进行精确的数据项匹配,从而得到更准确的结果。 
附图说明
图1.自然语言查询分析系统框架图; 
图2.句法分析树。 
具体实施方式
下面通过一个具体实例,即用户输入查询语句“最新款的苹果电脑是否有支持手写输入的功能”,来详细描述系统的具体实现方式和各个模块的工作过程。 
1、词法分析 
自动分词和命名实体识别 
分词是其它模块对查询语句作进一步分析的基础。本发明采用条件随机场模型,对分词和命名实体识别两个任务进行联合标记,即对句子中的每个字标记字在词中的位置和实体类别,进而转化成分词结果并识别出命名实体。条件随机场模型能灵活地融合反映上下文信息的各种特征,以及构词法特征,适用于分词等序列标记任务,这种联合策略可以同时提高分词和命名实体识别的准确率。 
分词采用4类标记:词首、词中、词尾和单字词。命名实体识别采用4类标记:人名、地名、组织机构名和非命名实体。将这两类标记组合在一起,这样在一体化模型中就有词首-人名等16种标记。采用的特征为基于3字窗长的6类特征模板,分别是:前一个字、当前字、后一个字、前一个字与当前字、当前字与后一个字、前一个字与后一个字。采用经过标注的人民日报2000年1月份、2月份和3月份语料作为训练语料。 
在识别过程中,对于输入的自然语言查询语句“最新款的苹果电脑是否有支持手写输入的功能”,首先对句子的每个字提取特征。例如,“新”字的特征见表1: 
表1“新”字的特征 
  特征模板   特征
  前一个字   最
  当前字   新
  后一个字   款
  前一个字与当前字   最/新
  当前字与后一个字   新/款
  前一个字与后一个字   最/款
条件随机场模型利用提取的这些特征,预测出的每个字的类别标记,例如,对于上述句子的“苹果”,其标记序列为“苹/词首-非命名实体果/词尾-非命名实体”。 
这样的字序列和标记序列,完全指明了一句话的切分方式,即“最新款的苹果电脑是否有支持手写输入的功能”,同时指出了每个词是否是命名实体。 
词性标注 
词性标注任务采用最大熵模型,最大熵模型能融合丰富的上下文信息,同时通过将前一个词的词性标记作为特征,结合动态规划的方式进行解码,可以考虑前后词性之间的相互影响。词性标记集采用《北京大学现代汉语语料库基本加工规范》。使用的特征除前一个词的词性标记外,包括当前词、前一个词、后一个词、当前词的长度、前一个词的长度、后一个词的长度、当前词的首字、当前词的尾字、前一个词与当前词、当前词与后一个词、前一个词与后一个词。采用经过词性标注的人民日报2000年1月份和2月份语料作为训练语料。 
对分词后的句子“最新款的苹果电脑是否有支持手写输入的功能”中的每个词提取特征,例如,对于“电脑”的特征见表2: 
表2“电脑”的特征 
  特征模板   特征
  当前词   电脑
  前一个词   苹果
  后一个词   是否
  当前词的长度   2
  前一个词的长度   2
  后一个词的长度   2
  当前词的首字   苹
  当前词的尾字   果
  前一个词与当前词   苹果/电脑
  当前词与后一个词   电脑/是否
  前一个词与后一个词   苹果/是否
[0048] 最大熵模型根据上述的特征以及对前一个词预测的词性,对当前词的各种可能词性进行预测,再利用动态规划算法找出所有可能的标记序列中概率最大的序列作为最终结果。上述的句子词性标注的结果为“最/副词新/形容词款/名词的/助词苹果/名词电脑/名词是否/副词有/动词支持/动词手写/区别词输入/名动词的/助词功能/名词”。 
2、句法分析 
句法分析 
本发明采用U.C.Berkeley提出的基于隐标记的概率上下文无关文法,通过标记的分裂和合并,得到比树库中原有文法更细致的文法,从而缓解了上下文无关文法的独立性假设。在分裂过程中,将原来的标记一分为二,进而利用EM(Expectation Maximization)算法估计出分裂后得到的文法的概率分布。然后在根据不同分裂对似然值的贡献,合并某些分裂。经过这样的多次迭代,就可以得到精细的文法及其相应的概率分布。 
在上面的迭代过程中,同时可以得到一个由粗到细的文法。在对输入的句子进行解码分析时,利用这些由粗到细的文法,在由可能的句法分析树构成的搜索空间中进行裁剪,大大提高了解码效率。 
对于句子“最新款的苹果电脑是否有支持手写输入的功能”,其句法分析树见附图2。 
3、语义分析 
词义消歧 
按照上面技术方案中提到的算法,对由每个词的可能的词义构成的词义网,通过动态规划算法找到一条最优路径,这条路径对应着每个词的正确含义。 
对如输入的带有词性的句子,“最/副词新/形容词款/名词的/助词苹果/名词电脑/名词是否/副词有/动词支持/动词手写/区别词输入/名动词的/助词功能/名词”,经词义消歧后,每个词的含义可以用知网中的义原进行明确的表述。例如,“是否”的词义是“表示疑问的功能词”。 
语义角色标注 
本实施方案中,采用Chinese PropBank作为标注语料库,训练用于语义角色标注的最大熵模型,该语料库是美国宾夕法尼亚大学基于Chinese Penn TreeBank标注的汉语浅层语义标注资源。通过从谓词,路径,短语类型,位置,中心词等线索中提取丰富的特征,得 到了一个高性能的语义角色标注器。 
对于经过句法分析后的句子“最新款的苹果电脑是否有支持手写输入的功能”,首先指定句子中的目标动词为“支持”,语义角色标注的结果为:“最新款的苹果电脑是否有[目标动词支持][受事手写输入]的功能”。这样,可以分析出“手写输入”是动词“支持”的承受者,这样就把这些句子成分和句子主要动词的语义关系分析出来。 
4、关键词提取 
首先根据识别的结果抽取出人名、地名、机构名,并根据知网等资源,利用这些词的同义关系进行扩展,并赋予较高的权重,这是在词层次上进行的查询分析和扩展,也是目前很多检索系统所采用的方法。 
根据句法分析结果,可以知道句子“最新款的苹果电脑是否有支持手写输入的功能”的主要动词是“有”,其主语中心词是“苹果”和“电脑”,宾语中心词是“功能”,进而对这些词进行扩展,得到扩充的检索关键词。 
从上面抽取的关键词来看,仅仅利用词法和句法分析的结果,有时还不能完全明确用户的检索需求。我们利用对动词“支持”的语义角色标注结果,分析得出其动作承受者是“手写”和“输入”,根据预先总结的针对不同动词的提取规则,我们把“手写”和“输入”这两个词也添加到检索关键词列表中,同时进行同义或相关扩展。 
无论是利用命名实体信息,还是句法分析和语义角色标注的分析结果,在进行关键词扩展时都要根据每个词的词义进行同义扩展。 
对于提取出的关键词的权重,本发明根据事先总结的规则进行赋值。 
综上所述,经过本发明提出的方法的分析,对于自然语言的查询语句,“最新款的苹果电脑是否有支持手写输入的功能”,所提取及扩展的关键词及其相应权重分别为“苹果/0.8电脑/0.8计算机/0.4微机/0.4功能/0.8作用/0.4手写/0.6输入/0.6”。 
性能评价 
我们对我们的解决方案中的主要模块进行了性能测试,测试的模块包括词法分析中的自动分词、命名实体识别、词性标注,句法分析和语义角色标注。 
1、词法分析 
分词、命名实体识别和词性标注都采用人名日报2000年6月份作为测试语料,评价指标为正确率、召回率和F1值,各个模块的性能分别见表3、表4、表5: 
表3分词模块的性能 
    正确率(%)   召回率(%)   F1(%)
  分词   97.10   96.59   96.85
表4命名实体识别模块的性能 
    正确率(%)   召回率(%)   F1(%)
  人名   95.07   90.51   92.72
  地名   95.22   94.39   94.80
  机构名   97.90   98.23   98.07
  所有   98.72   97.11   97.91
表5词性标注模块的性能 
    正确率(%)   召回率(%)   F1(%)
  词性标注   95.54   95.54   95.54
2、句法分析 
句法分析的训练和测试语料采用句法分析研究中的标准分配策略,评价指标采用正确率、召回率和F1值,句法分析性能见表6: 
表6句法分析模块的性能 
    正确率(%)   召回率(%)   F1(%)
  句法分析   87.29   84.85   86.05
3、语义分析 
语义角色标注的训练和测试语料按照4∶1的比例分配,评价指标为正确率、召回率和F1值,语义角色标注模块性能见表7: 
表7语义角色标注模块的性能 
    正确率(%)   召回率(%)   F1(%)
  语义角色标注   89.43   86.30   87.84

Claims (9)

1.一种用于信息检索的查询语句分析方法,其步骤为:
1)对输入的中文查询语句进行自动分词、命名实体识别和词性标注;
2)对分词后的句子进行句法结构分析,得到句法结构树;对词性标注后的句子采用知网的义原表示体系来确定每个词的词义;
3)根据句子的句法结构和每个词的词义,对句子中目标动词进行语义角色标注;
4)根据识别的命名实体、目标动词的语义角色标注结果分别进行关键词扩展,得到扩展后的关键词。
2.如权利要求1所述的方法,其特征在于所述自动分词和命名实体识别的方法为:采用条件随机场模型对查询语句进行分词和命名实体识别,并对分词和识别结果进行联合标记。
3.如权利要求1或2所述的方法,其特征在于所述命名实体包括:人名、地名、机构名。
4.如权利要求1所述的方法,其特征在于采用最大熵模型进行所述词性标注。
5.如权利要求4所述的方法,其特征在于采用基于隐标记的概率上下文无关文法的句法分析系统对句子进行文法分析,得到句法结构树。
6.如权利要求5所述的方法,其特征在于所述采用知网的义原表示体系来确定每个词的词义的方法为:首先将每个词的词义用义原,以及义原和义原之间的关系来进行描述,得到词义的网络;然后通过动态规划算法,搜索词义网中一条距离最短的路径来确定该词的词义。
7.如权利要求1所述的方法,其特征在于以句法成分为语义角色标注的基本单元,采用最大熵或支持向量机对所述目标动词进行语义角色标注。
8.如权利要求1所述的方法,其特征在于利用所述知网对关键词进行扩展,其方法为:首先根据词的词义在知网中找出每个词的同义词;然后对命名实体进行同义扩展并赋予一权重,根据句法分析结果对句子中的动词和动词对应的主语中心词、宾语中心词进行扩展,得到扩展关键词,根据目标动词的语义角色标注结果将目标动词承受者作为关键词进行同义或相关扩展并赋予一权重。
9.一种结合语义分析的自然语言式查询分析系统,包括词法分析模块、句法分析模块、语义分析模块和关键词提取模块;
所述词法分析模块用于对输入的中文查询语句进行自动分词、命名实体识别和词性标注;
所述句法分析模块用于将分词后的句子作为输入,对句子的句法结构进行分析得到句法结构树;
所述语义分析模块包括词义消歧模块,用于根据词性标注后的句子确定每个词的词义;和语义角色标注模块,用于根据句子的句法结构和词的词义对句子中目标动词进行语义角色标注;
所述关键词提取模块根据对查询句子在词法分析模块、句法分析模块和语义分析模块中的分析,对关键词进行扩展。
CN2009101318260A 2009-02-17 2009-04-08 一种用于信息检索的查询语句分析方法与系统 Expired - Fee Related CN101510221B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2009101318260A CN101510221B (zh) 2009-02-17 2009-04-08 一种用于信息检索的查询语句分析方法与系统

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN200910078111.3 2009-02-17
CN200910078111 2009-02-17
CN2009101318260A CN101510221B (zh) 2009-02-17 2009-04-08 一种用于信息检索的查询语句分析方法与系统

Publications (2)

Publication Number Publication Date
CN101510221A CN101510221A (zh) 2009-08-19
CN101510221B true CN101510221B (zh) 2012-05-30

Family

ID=41002621

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009101318260A Expired - Fee Related CN101510221B (zh) 2009-02-17 2009-04-08 一种用于信息检索的查询语句分析方法与系统

Country Status (1)

Country Link
CN (1) CN101510221B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105912634A (zh) * 2016-04-05 2016-08-31 扬州大学 一种面向软件代码检索的查询语句重新生成方法
CN108511044A (zh) * 2017-02-23 2018-09-07 珠海健康云科技有限公司 一种互联网咨询分诊方法及系统

Families Citing this family (124)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102033879B (zh) * 2009-09-27 2015-02-18 深圳市世纪光速信息技术有限公司 一种中文人名识别的方法和装置
CN102117285B (zh) * 2009-12-30 2015-01-07 安世亚太科技股份有限公司 一种基于语义索引的检索方法
CN102117284A (zh) * 2009-12-30 2011-07-06 安世亚太科技(北京)有限公司 一种跨语言知识检索的方法
CN102117283A (zh) * 2009-12-30 2011-07-06 安世亚太科技(北京)有限公司 一种基于语义索引的数据检索方法
CN102193929B (zh) * 2010-03-08 2013-03-13 阿里巴巴集团控股有限公司 利用词信息熵的搜索方法及其设备
CN102314415A (zh) * 2010-07-08 2012-01-11 盛乐信息技术(上海)有限公司 利用成语知识的判别式分词系统及方法
WO2012025040A1 (zh) * 2010-08-27 2012-03-01 Huang Bin 可视化搜索引擎系统及其实现方法和应用
CN101916294B (zh) * 2010-08-27 2015-05-20 黄斌 一种利用语义分析实现精确搜索的方法
CN102467518A (zh) * 2010-11-05 2012-05-23 百度在线网络技术(北京)有限公司 一种用于在推广关键词中设置必要语义成分的方法和设备
CN102789466B (zh) * 2011-05-19 2015-09-30 百度在线网络技术(北京)有限公司 一种提问标题质量判定方法、提问引导方法及其装置
CN102314507B (zh) * 2011-09-08 2013-07-03 北京航空航天大学 一种中文命名实体识别歧义消解方法
CN102682049B (zh) * 2011-10-31 2014-04-23 天脉聚源(北京)传媒科技有限公司 一种文本的候选关键词的提取方法
CN103123624B (zh) * 2011-11-18 2015-12-02 阿里巴巴集团控股有限公司 确定中心词的方法及装置、搜索方法及装置
CN103425687A (zh) * 2012-05-21 2013-12-04 阿里巴巴集团控股有限公司 一种基于关键词的检索方法和系统
CN103544167A (zh) * 2012-07-13 2014-01-29 江苏新瑞峰信息科技有限公司 一种基于中文检索的逆向分词方法及装置
CN103577391A (zh) * 2012-07-28 2014-02-12 江苏新瑞峰信息科技有限公司 一种基于中文检索的双向分词方法及装置
CN102999569B (zh) * 2012-11-09 2015-08-19 同济大学 用户需求分析定位器和分析及定位方法
CN103020311B (zh) * 2013-01-08 2016-05-18 深圳市宜搜科技发展有限公司 一种用户检索词的处理方法及系统
CN103176963B (zh) * 2013-03-08 2015-06-03 北京理工大学 基于crf++汉语句义结构模型自动标注方法
CN103176953B (zh) * 2013-03-20 2016-02-24 新浪网技术(中国)有限公司 一种文本处理方法及系统
CN103150388A (zh) * 2013-03-21 2013-06-12 天脉聚源(北京)传媒科技有限公司 一种提取关键词的方法及装置
CN104111933B (zh) * 2013-04-17 2017-08-04 阿里巴巴集团控股有限公司 获取业务对象标签、建立训练模型的方法及装置
CN103177126B (zh) * 2013-04-18 2015-07-29 中国科学院计算技术研究所 用于搜索引擎的色情用户查询识别方法及设备
CN103226606B (zh) 2013-04-28 2016-08-10 浙江核新同花顺网络信息股份有限公司 查询选取方法及系统
CN103268348B (zh) * 2013-05-28 2016-08-10 中国科学院计算技术研究所 一种用户查询意图识别方法
CN104239355B (zh) * 2013-06-21 2018-09-11 高德软件有限公司 面向搜索引擎的数据处理方法及装置
CN103440234B (zh) * 2013-07-25 2017-03-01 清华大学 自然语言理解系统及方法
CN104636323B (zh) * 2013-11-07 2018-04-03 腾讯科技(深圳)有限公司 处理语音文本的方法及装置
CN103914513B (zh) * 2014-01-13 2018-02-06 北京搜狗科技发展有限公司 一种实体输入方法和装置
CN104951458B (zh) * 2014-03-26 2019-03-01 华为技术有限公司 基于语义识别的帮助处理方法及设备
CN105426369A (zh) * 2014-09-04 2016-03-23 上海尧博信息科技有限公司 一种专利检索用语义解码方法
CN105528349B (zh) 2014-09-29 2019-02-01 华为技术有限公司 知识库中问句解析的方法及设备
CN104391969B (zh) * 2014-12-04 2018-01-30 百度在线网络技术(北京)有限公司 确定用户查询语句句法结构的方法及装置
CN104462552B (zh) * 2014-12-25 2018-07-17 北京奇虎科技有限公司 问答页面核心词提取方法和装置
CN104572625A (zh) * 2015-01-21 2015-04-29 北京云知声信息技术有限公司 命名实体的识别方法
CN104809148B (zh) * 2015-02-27 2018-05-25 百度在线网络技术(北京)有限公司 一种用于确定标杆对象的方法和装置
CN105988978B (zh) * 2015-03-04 2019-05-28 科大讯飞股份有限公司 确定文本焦点的方法及系统
CN104899262B (zh) * 2015-05-22 2017-12-22 华中师范大学 一种支持用户自定义归类规则的信息归类方法
CN105243052A (zh) * 2015-09-15 2016-01-13 浪潮软件集团有限公司 一种语料标注方法、装置和系统
CN105205045A (zh) * 2015-09-21 2015-12-30 上海智臻智能网络科技股份有限公司 一种用于智能交互的语义模型方法
CN105302859B (zh) * 2015-09-21 2018-11-30 上海智臻智能网络科技股份有限公司 一种基于互联网的智能交互系统
CN105117388B (zh) * 2015-09-21 2018-06-29 上海智臻智能网络科技股份有限公司 一种智能机器人交互系统
CN105677639A (zh) * 2016-01-10 2016-06-15 齐鲁工业大学 一种基于短语结构句法树的英文词义消歧方法
CN105718442A (zh) * 2016-01-19 2016-06-29 齐鲁工业大学 一种基于句法分析的词义消歧方法
CN105740225B (zh) * 2016-01-19 2019-02-01 齐鲁工业大学 一种融合句子局部上下文与文档领域信息的词义消歧方法
CN105718443A (zh) * 2016-01-26 2016-06-29 齐鲁工业大学 一种基于依存词汇关联度的形容词词义消歧方法
CN105786977B (zh) * 2016-02-05 2020-03-03 北京百度网讯科技有限公司 基于人工智能的移动搜索方法和装置
CN105893346A (zh) * 2016-03-30 2016-08-24 齐鲁工业大学 一种基于依存句法树的图模型词义消歧方法
CN106021286B (zh) * 2016-04-29 2019-05-28 东北电力大学 一种基于语言结构的语言理解方法
CN106095956A (zh) * 2016-06-15 2016-11-09 北京智能管家科技有限公司 支持信息裂变查询方法及装置
CN107608973A (zh) * 2016-07-12 2018-01-19 华为技术有限公司 一种基于神经网络的翻译方法及装置
CN107729309B (zh) * 2016-08-11 2022-11-08 中兴通讯股份有限公司 一种基于深度学习的中文语义分析的方法及装置
CN106294875B (zh) * 2016-08-25 2019-05-17 中国国防科技信息中心 一种命名实体模糊检索方法与系统
CN106446018B (zh) * 2016-08-29 2020-02-04 北京百度网讯科技有限公司 基于人工智能的查询信息处理方法和装置
CN107967250B (zh) * 2016-10-19 2020-12-29 中兴通讯股份有限公司 一种信息处理方法及装置
CN106503265A (zh) * 2016-11-30 2017-03-15 北京赛迈特锐医疗科技有限公司 基于权值的结构化搜索系统及其搜索方法
CN106649878A (zh) * 2017-01-07 2017-05-10 陈翔宇 基于人工智能的物联网实体搜索方法及系统
CN108345608A (zh) * 2017-01-24 2018-07-31 北京搜狗科技发展有限公司 一种搜索方法、装置及设备
CN106886516A (zh) * 2017-02-27 2017-06-23 竹间智能科技(上海)有限公司 自动识别语句关系和实体的方法及装置
CN107133259A (zh) * 2017-03-22 2017-09-05 北京晓数聚传媒科技有限公司 一种搜索方法和装置
CN106970993B (zh) * 2017-03-31 2020-09-18 百度在线网络技术(北京)有限公司 挖掘模型更新方法和装置
CN107680588B (zh) * 2017-05-10 2020-10-20 平安科技(深圳)有限公司 智能语音导航方法、装置及存储介质
WO2018223331A1 (en) * 2017-06-08 2018-12-13 Beijing Didi Infinity Technology And Development Co., Ltd. Systems and methods for text attribute determination using conditional random field model
CN107665189B (zh) * 2017-06-16 2019-12-13 平安科技(深圳)有限公司 一种提取中心词的方法、终端以及设备
CN107748742A (zh) * 2017-06-16 2018-03-02 平安科技(深圳)有限公司 一种基于句法依存关系提取中心词的方法、终端以及设备
CN107402915A (zh) * 2017-07-17 2017-11-28 广州特道信息科技有限公司 多层语义的网络词库的生成方法及装置
CN107562831A (zh) * 2017-08-23 2018-01-09 中国软件与技术服务股份有限公司 一种基于全文检索的精确查找方法
CN107491556A (zh) * 2017-09-04 2017-12-19 湖北地信科技集团股份有限公司 时空全要素语义查询服务系统及其方法
CN107807917A (zh) * 2017-09-27 2018-03-16 风变科技(深圳)有限公司 文本内容提取方法、装置、系统及存储介质
CN107704892B (zh) * 2017-11-07 2019-05-17 宁波爱信诺航天信息有限公司 一种基于贝叶斯模型的商品编码分类方法以及系统
CN108304466B (zh) * 2017-12-27 2022-01-11 中国银联股份有限公司 一种用户意图识别方法以及用户意图识别系统
CN110020015A (zh) * 2017-12-29 2019-07-16 中国科学院声学研究所 一种对话系统回答生成方法及系统
CN110019738A (zh) * 2018-01-02 2019-07-16 中国移动通信有限公司研究院 一种搜索词的处理方法、装置及计算机可读存储介质
CN110309400A (zh) * 2018-02-07 2019-10-08 鼎复数据科技(北京)有限公司 一种智能理解用户查询意图的方法及系统
CN108415838B (zh) * 2018-03-01 2021-07-27 吉旗(成都)科技有限公司 一种基于自然语言处理技术的自动化测试方法
CN108549631A (zh) * 2018-03-30 2018-09-18 北京智慧正安科技有限公司 名词词库提取方法、电子装置及计算机可读存储介质
CN108932218B (zh) * 2018-06-29 2022-09-30 北京百度网讯科技有限公司 一种实例扩展方法、装置、设备和介质
CN109086268A (zh) * 2018-07-13 2018-12-25 上海乐言信息科技有限公司 一种基于迁移学习的领域文法学习系统和方法
CN109241258B (zh) * 2018-08-23 2022-09-06 江苏索迩软件技术有限公司 一种应用税务领域的深度学习智能问答系统
CN109241259B (zh) * 2018-08-24 2021-01-05 国网江苏省电力有限公司苏州供电分公司 基于er模型的自然语言查询方法、装置及系统
CN109408801A (zh) * 2018-08-28 2019-03-01 昆明理工大学 一种基于朴素贝叶斯算法的中文分词方法
CN109214005A (zh) * 2018-09-14 2019-01-15 南威软件股份有限公司 一种基于中文分词的线索提取方法及系统
CN109255127A (zh) * 2018-09-27 2019-01-22 华东师范大学 一种需求功能点智能识别系统
CN109271527A (zh) * 2018-09-27 2019-01-25 华东师范大学 一种需求功能点智能识别方法
CN111159330B (zh) * 2018-11-06 2023-06-20 阿里巴巴集团控股有限公司 一种数据库查询语句的生成方法及装置
CN109635278A (zh) * 2018-11-20 2019-04-16 北京小谛机器人科技有限公司 语义表示方法及装置
CN109582968A (zh) * 2018-12-04 2019-04-05 北京容联易通信息技术有限公司 一种语料中的关键信息的提取方法及装置
CN111950290A (zh) * 2019-04-30 2020-11-17 广东小天才科技有限公司 一种基于概念图的语义解析方法及装置
CN110134955A (zh) * 2019-05-14 2019-08-16 中电协通科技(张家口)有限公司 一种语义处理方法
CN110309318B (zh) * 2019-05-29 2022-11-29 西安电子科技大学 信息通信网络的意图表征系统及方法、信息数据处理终端
CN110263127A (zh) * 2019-06-21 2019-09-20 北京创鑫旅程网络技术有限公司 基于用户查询词进行文本搜索方法及装置
CN110263345B (zh) * 2019-06-26 2023-09-05 北京百度网讯科技有限公司 关键词提取方法、装置及存储介质
CN110457685A (zh) * 2019-07-22 2019-11-15 南京邮电大学 一种基于机器学习的中文商业文本预处理方法
CN110458471B (zh) * 2019-08-19 2022-05-20 绍兴数纺科技有限公司 标准化染料信息管理系统
CN110797012B (zh) * 2019-08-30 2023-06-23 腾讯科技(深圳)有限公司 一种信息提取方法、设备及存储介质
CN110795942B (zh) * 2019-09-18 2022-10-14 平安科技(深圳)有限公司 基于语义识别的关键词确定方法、装置和存储介质
CN110738041B (zh) * 2019-10-16 2023-12-01 天津市爱贝叶斯信息技术有限公司 一种语句标注方法、装置、服务器及存储介质
CN110738050B (zh) * 2019-10-16 2023-08-04 北京小米智能科技有限公司 基于分词和命名实体识别的文本重组方法及装置、介质
CN110765759B (zh) * 2019-10-21 2023-05-19 普信恒业科技发展(北京)有限公司 意图识别方法及装置
CN110750989B (zh) * 2019-10-28 2023-09-19 北京金山数字娱乐科技有限公司 一种语句分析的方法及装置
CN111062199B (zh) * 2019-11-05 2023-12-22 北京中科微澜科技有限公司 一种不良信息识别方法及装置
CN110825864A (zh) * 2019-11-13 2020-02-21 北京香侬慧语科技有限责任公司 一种获取问题答案的方法及装置
CN110990532A (zh) * 2019-11-28 2020-04-10 中国银行股份有限公司 一种处理文本的方法和装置
CN111144091B (zh) * 2019-12-02 2024-04-05 支付宝(杭州)信息技术有限公司 客服成员的确定方法、装置以及群成员身份的确定方法
CN111104803B (zh) * 2019-12-31 2024-02-13 科大讯飞股份有限公司 语义理解处理方法、装置、设备及可读存储介质
CN111241124B (zh) * 2020-01-07 2023-10-03 百度在线网络技术(北京)有限公司 一种需求模型构建方法、装置、电子设备和介质
CN111291565A (zh) * 2020-01-17 2020-06-16 创新工场(广州)人工智能研究有限公司 一种用于命名实体识别的方法与装置
WO2021146831A1 (zh) * 2020-01-20 2021-07-29 京东方科技集团股份有限公司 实体识别的方法和装置、建立词典的方法、设备、介质
CN111460095B (zh) * 2020-03-17 2023-06-27 北京百度网讯科技有限公司 问答处理方法、装置、电子设备及存储介质
CN113538075A (zh) * 2020-04-14 2021-10-22 阿里巴巴集团控股有限公司 数据的处理方法、模型的训练方法、装置和设备
CN111681301B (zh) * 2020-06-08 2023-05-09 上海建工四建集团有限公司 幻灯片中图片和文本的处理方法、装置、终端和存储介质
CN111797115A (zh) * 2020-06-28 2020-10-20 中国工商银行股份有限公司 一种员工信息的搜索方法及装置
CN111737973A (zh) * 2020-06-29 2020-10-02 北京明略软件系统有限公司 自然语言检索语句解析方法、装置、设备和存储介质
CN112131246A (zh) * 2020-09-28 2020-12-25 范馨月 基于自然语言语义解析的数据中心智能查询统计方法
CN112668324B (zh) * 2020-12-04 2023-12-08 北京达佳互联信息技术有限公司 语料数据处理方法、装置、电子设备及存储介质
CN112784605A (zh) * 2021-02-09 2021-05-11 柳州智视科技有限公司 一种基于句子的实体名识别的方法
CN112835927A (zh) * 2021-03-25 2021-05-25 中国工商银行股份有限公司 一种结构化查询语句的生成方法、装置和设备
CN113220965A (zh) * 2021-04-14 2021-08-06 武汉祺锦信息技术有限公司 一种网站关键词智能抓取分类分析系统
CN113268673B (zh) * 2021-04-23 2023-06-02 国家计算机网络与信息安全管理中心 互联网行动类信息线索分析的方法和系统
CN113379065A (zh) * 2021-05-17 2021-09-10 百融云创科技股份有限公司 一种基于多目标语法进化的自动机器学习方法
CN113283666B (zh) * 2021-06-10 2023-07-07 中国人民解放军国防科技大学 一种卫星群的启发式智能任务推理与决策方法
CN113792542A (zh) * 2021-10-12 2021-12-14 南京新一代人工智能研究院有限公司 一种融合句法分析和语义角色剪枝的意图理解方法
CN114118060B (zh) * 2021-11-10 2022-09-27 北京深维智信科技有限公司 一种从销售会话中自动识别关键事件的方法及系统
CN116910086B (zh) * 2023-09-13 2023-12-01 北京理工大学 一种基于自注意力句法感知的数据库查询方法和系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004272785A (ja) * 2003-03-11 2004-09-30 Nippon Hoso Kyokai <Nhk> 質問応答装置及び質問応答プログラム
WO2006120352A1 (fr) * 2005-05-12 2006-11-16 Kabire Fidaali Dispositif et procede d'analyse semantique de documents par constitution d'arbres n-aire et semantique
CN101246492A (zh) * 2008-02-26 2008-08-20 华中科技大学 基于自然语言的全文检索系统
CN101295294A (zh) * 2008-06-12 2008-10-29 昆明理工大学 基于信息增益改进贝叶斯词义消歧方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004272785A (ja) * 2003-03-11 2004-09-30 Nippon Hoso Kyokai <Nhk> 質問応答装置及び質問応答プログラム
WO2006120352A1 (fr) * 2005-05-12 2006-11-16 Kabire Fidaali Dispositif et procede d'analyse semantique de documents par constitution d'arbres n-aire et semantique
CN101246492A (zh) * 2008-02-26 2008-08-20 华中科技大学 基于自然语言的全文检索系统
CN101295294A (zh) * 2008-06-12 2008-10-29 昆明理工大学 基于信息增益改进贝叶斯词义消歧方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
于江德,樊孝忠,庞文博.事件信息抽取中语义角色标注研究.计算机科学.2008,35(03), *
张晓孪,王西锋,李乃乾.中文问答系统中问题理解的研究与实现.西华大学学报(自然科学版).2008,27(02), *
钱兵,王永成,高凯.面向搜索引擎的自然语言理解的设计与实现.计算机应用研究.2006,(12), *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105912634A (zh) * 2016-04-05 2016-08-31 扬州大学 一种面向软件代码检索的查询语句重新生成方法
CN105912634B (zh) * 2016-04-05 2019-03-12 扬州大学 一种面向软件代码检索的查询语句重新生成方法
CN108511044A (zh) * 2017-02-23 2018-09-07 珠海健康云科技有限公司 一种互联网咨询分诊方法及系统
CN108511044B (zh) * 2017-02-23 2021-12-17 珠海健康云科技有限公司 一种互联网咨询分诊方法及系统

Also Published As

Publication number Publication date
CN101510221A (zh) 2009-08-19

Similar Documents

Publication Publication Date Title
CN101510221B (zh) 一种用于信息检索的查询语句分析方法与系统
Han et al. Automatic document metadata extraction using support vector machines
Zhang et al. Entity linking leveraging automatically generated annotation
Kavalec et al. A study on automated relation labelling in ontology learning
CN108763333A (zh) 一种基于社会媒体的事件图谱构建方法
Baldwin Deep lexical acquisition of verb–particle constructions
Bansal et al. Hybrid attribute based sentiment classification of online reviews for consumer intelligence
CN109871543B (zh) 一种意图获取方法及系统
CN105045852A (zh) 一种教学资源的全文搜索引擎系统
CN104063387A (zh) 在文本中抽取关键词的装置和方法
CN102033919A (zh) 文本关键词提取方法及系统
KR101508070B1 (ko) 어휘지도를 이용한 용언의 다의어 의미 분석 방법
US11893537B2 (en) Linguistic analysis of seed documents and peer groups
CN108038099B (zh) 基于词聚类的低频关键词识别方法
Ramprasath et al. A survey on question answering system
JP2011118689A (ja) 検索方法及びシステム
CN102214189A (zh) 基于数据挖掘获取词用法知识的系统及方法
CN105912662A (zh) 基于Coreseek的垂直搜索引擎研究与优化的方法
Moreo et al. A high-performance FAQ retrieval method using minimal differentiator expressions
Wang et al. A joint chinese named entity recognition and disambiguation system
Nguyen et al. An ontology-based approach for key phrase extraction
Sood et al. Creating domain based dictionary and its evaluation using classification accuracy
Rondon et al. Never-ending multiword expressions learning
Das et al. Sentence level emotion tagging
Bank et al. Textual Characteristics for Language Engineering.

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20120530

Termination date: 20180408

CF01 Termination of patent right due to non-payment of annual fee