CN105354199A - 一种基于场景信息的实体含义识别方法和系统 - Google Patents

一种基于场景信息的实体含义识别方法和系统 Download PDF

Info

Publication number
CN105354199A
CN105354199A CN201410411781.3A CN201410411781A CN105354199A CN 105354199 A CN105354199 A CN 105354199A CN 201410411781 A CN201410411781 A CN 201410411781A CN 105354199 A CN105354199 A CN 105354199A
Authority
CN
China
Prior art keywords
entity
implication
candidate
input
entity implication
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410411781.3A
Other languages
English (en)
Other versions
CN105354199B (zh
Inventor
沈李斌
雷欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Yushanzhi Information Technology Co Ltd
Original Assignee
Beijing Yushanzhi Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Yushanzhi Information Technology Co Ltd filed Critical Beijing Yushanzhi Information Technology Co Ltd
Priority to CN201410411781.3A priority Critical patent/CN105354199B/zh
Publication of CN105354199A publication Critical patent/CN105354199A/zh
Application granted granted Critical
Publication of CN105354199B publication Critical patent/CN105354199B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于场景信息的实体含义识别方法和系统,其中实体含义识别方法包括:识别用户输入,以产生输入识别结果;从输入识别结果中识别出实体;为识别出的实体获取候选实体含义的集合;基于获取的场景信息,计算所述候选实体含义的集合中各候选实体含义的特征向量;基于各候选实体含义的特征向量,计算各候选实体含义的分数,根据计算出的分数从候选实体含义集合中选取候选实体含义作为实体含义识别结果。与现有技术相比,本发明可以有效改善实体含义识别的准确性。

Description

一种基于场景信息的实体含义识别方法和系统
技术领域
本发明涉及信息技术,尤其涉及一种基于场景信息的实体含义识别方法和系统。
背景技术
在信息检索中,首先要识别用户输入,并准确解释用户输入的含义,根据用户输入的含义检索用户需要的内容。在准确解释用户输入的含义时,用户输入中的实体(专用名词,例如颐和园、交大、中山路)的含义识别尤为重要。例如交大,可能存在北京交通大学、上海交通大学、西安交通大学等。在深圳、哈尔滨等都存在中山路。因此,准确识别实体的含义对于信息检索的准确性尤为重要。
发明内容
本发明解决的技术问题之一是提升实体含义识别的准确性。
根据本发明的一个方面的一个实施例,提供了一种基于场景信息的实体含义识别方法,包括:
识别用户输入,以产生输入识别结果;
从输入识别结果中识别出实体;
为识别出的实体获取候选实体含义的集合;
基于获取的场景信息,计算所述候选实体含义的集合中各候选实体含义的特征向量;
基于各候选实体含义的特征向量,计算各候选实体含义的分数,根据计算出的分数从候选实体含义集合中选取候选实体含义作为实体含义识别结果。
根据本发明的一个实施例,所述用户输入包括语音输入和/或文字输入。
根据本发明的一个实施例,从输入识别结果中识别出实体的步骤包括:
将输入识别结果分词;
为从输入识别结果中分出的词进行词性标注;
将每一个字输入分类器,判定每一个字是否是构成实体的字、以及构成实体的开头、中间还是末尾;
根据分类器对每一个字的判定结果,判断该词是否是实体。
根据本发明的一个实施例,所述分类器是通过利用训练语料作为输入、并对分类结果进行反馈训练出的。
根据本发明的一个实施例,为识别出的实体获取候选实体含义的集合的步骤包括:针对识别出的实体,从实体含义库查找与该实体匹配的候选实体含义。
根据本发明的一个实施例,获取的场景信息包括用户查询历史、查询时间、用户位置、周边事件、周边人物、应用使用情况中的一项或多项。
根据本发明的一个实施例,所述候选实体含义的集合中各候选实体含义的特征向量中的至少一部分特征基于用户查询历史、查询时间、用户位置、周边事件、周边人物、应用使用情况中的一项或多项计算。
根据本发明的一个实施例,计算各候选实体含义的分数的步骤包括:
使用评分函数计算各候选实体含义的分数。
根据本发明的一个实施例,所述评分函数的系数是利用训练语料作为输入、并对实体含义识别结果进行反馈训练出的。
根据本发明另一个方面的一个实施例,还提供了一种基于场景信息的实体含义识别系统,包括:
输入识别装置,被配置为识别用户输入以产生输入识别结果;
实体识别装置,被配置为从输入识别结果中识别出实体;
候选实体含义获取装置,被配置为为识别出的实体获取候选实体含义的集合;
计算装置,被配置为基于获取的场景信息,计算所述候选实体含义的集合中各候选实体含义的特征向量;
实体含义识别装置,被配置为基于各候选实体含义的特征向量,计算各候选实体含义的分数,根据计算出的分数从候选实体含义集合中选取候选实体含义作为实体含义识别结果。
根据本发明的一个实施例,用户输入包括语音输入和/或文字输入。
根据本发明的一个实施例,实体识别装置包括:
分词单元,被配置为将输入识别结果分词,并为从输入识别结果中分出的词进行词性标注;
实体判断单元,被配置为将每一个字输入分类器,判定每一个字是否是构成实体的字、以及构成实体的开头、中间还是末尾,根据分类器对每一个字的判定结果,判断该词是否是实体。
根据本发明的一个实施例,所述分类器是通过利用训练语料作为输入、并对分类结果进行反馈训练出的。
根据本发明的一个实施例,所述候选实体含义获取装置被配置为:
针对识别出的实体,从实体含义库查找与该实体匹配的候选实体含义。
根据本发明的一个实施例,获取的场景信息包括用户查询历史、查询时间、用户位置、周边事件、周边人物、应用使用情况中的一项或多项。
根据本发明的一个实施例,所述候选实体含义的集合中各候选实体含义的特征向量中的至少一部分特征基于用户查询历史、查询时间、用户位置、周边事件、周边人物、应用使用情况中的一项或多项计算。
根据本发明的一个实施例,所述实体含义识别装置被配置为使用评分函数计算各候选实体含义的分数。
根据本发明的一个实施例,所述评分函数的系数是利用训练语料作为输入、并对实体含义识别结果进行反馈训练出的。
与仅采用通用模型的现有技术相比,本发明的实施例所提供的技术方案,通过基于获取的场景信息而不仅是通用模型来分析候选实体含义,根据不同的场景信息对候选实体含义进行针对性地分析,较大地提升了实体含义识别的准确性。
本领域普通技术人员将了解,虽然下面的详细说明将参考图示实施例、附图进行,但本发明并不仅限于这些实施例。而是,本发明的范围是广泛的,且意在仅通过后附的权利要求限定本发明的范围。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1示出根据本发明一个实施例的基于场景信息的实体含义识别方法的流程图;
图2示出了根据本发明一个实施例的基于场景信息的实体含义识别系统的示意性框图;
图3示出了根据本发明的一个实施例的实体识别装置的示意性框图;
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面结合附图对本发明作进一步详细描述。
图1示出了根据本发明一个实施例的基于场景信息的实体含义识别方法的流程图。根据图1,所述实体含义识别方法包括:
步骤S101,识别用户输入,以产生输入识别结果。
可选地,所述用户输入包括诸如语音输入、文字输入等各种输入方式,文字输入可包括诸如字形输入和拼音输入。当用户输入为文字输入时,输入识别结果即输入的文字;当用户输入为语音输入时,可以基于声学模型识别出音节,通过查询字典中音节与文本的可能映射关系,利用语言模型进行语音解码,识别出对应的文本作为输入识别结果。语音解码目前已有成熟技术。
以语音识别为例,用户输入为“woyaoqujiaoda”,输入识别结果为“我要去交大”。
步骤S102,从输入识别结果中识别出实体。
实体是输入识别结果中的专用名词,例如地点、人名等。
可选地,对输入识别结果进行一系列的预处理,诸如编码转换、全角半角转换等。预处理后,基于相应的规则、统计方法或机器学习方法从输入识别结果中识别出实体。
可选地,从输入识别结果中识别出实体的步骤包括:
-将输入识别结果分词;
例如,将输入识别结果“我要去交大”进行分词,得到“我/要/去/交大”,分词的方法是已有技术,在此不作限定,包括诸如基于字符串匹配的分词方法、基于理解的分词方法、基于统计的分词方法等。通过分词,将输入识别结果切分为一个一个的词。
-为从输入识别结果中分出的词进行词性标注;
例如,为上文中切分后的各个词“我/要/去/交大”进行词性标注,我-代词,要-助动词,去-动词,交大-名词。词性标注的方法是已有技术。
通过分词和词性标注,可以提升实体识别的准确率。分词后的名词也可以作为训练语料,为构建实体识别的模型服务。
-将每一个字输入分类器,判定每一个字是否是构成实体的字、以及构成实体的开头、中间还是末尾;
可选地,本实施例中的分类器是通过利用大量训练语料作为输入、并对分类结果进行反馈训练出的。分类器是建模领域常用的模型,能利用大量输入训练,得到分类,并通过接受用户反馈不断完善分类的性能。诸如,将大量通用名词和专用名词(实体)等作为训练语料,将其中的每一个字输入到分类器中以对分类器进行训练,让分类器学习这个字是经常构成实体的开头一个字、末尾一个字、中间的字、还是不经常构成实体中的字。并对分类结果进行反馈训练。例如,由专家判定分类器分类结果是否正确,当不准确时反馈给分类器,让分类器重新学习,分类器经过这样的不断学习,即能下次分类更准确。在本实施例中,分类器的分类方法在此不作限定,包括诸如决策树分类法、贝叶斯分类算法、神经网络算法、模糊分类算法等。
训练后的分类器,就可以对词中的字是否构成实体的一部分进行判定,例如以名词“交大”为例,通过分类器,可以判断出“交”经常构成实体的开头、“大”经常构成实体的末尾。
-根据分类器对每一个字的判定结果,判断该词是否是实体。
例如,当判断出“交”经常构成实体的开头、“大”经常构成实体的末尾,判断“交大”为一个实体。
步骤S103,为识别出的实体获取候选实体含义的集合。
可选地,针对识别出的实体,从实体含义库查找与该实体匹配的候选实体含义。本实施例中,实体含义库可以通过收集相应实体词典数据或/和从相应的专业网站上收集相应的实体数据等各种方式来预先构建,并实时或定期更新。
例如,当识别出的实体是“交大”时,从实体含义库找到其候选实体含义有“北京交通大学”、“上海交通大学”、“西安交通大学”等。
步骤S104,基于获取的场景信息,计算所述候选实体含义的集合中各候选实体含义的特征向量。此处的场景是指用户进行检索时所处的条件和环境,例如说话的地理位置、时间、周围人物是谁、周围活动是什么(在什么活动中说的)、用户终端存储和检测到的其他信息(如终端上各app使用的频率、日历信息)等。可选地,获取的场景信息包括用户查询历史、查询时间、查询地点、周边事件、周边人物、应用使用情况中的一项或多项。
其中的场景信息可以通过以下方式来获取:
对于当前用户的地理位置,通过当前用户终端定时上报、或主动向用户终端查询从定位系统获得的地理位置、用户终端的短信信息、用户终端存储的备忘信息、日历信息中的一项或多项获得。
例如,当前用户通过手机发了一条短信“我现在在A公司楼下等你”给其他用户,则根据该短信内容获取其中的地理信息“其公司”,通过查询第三方提供的地图数据,查询与该地理信息“通公司”对应的地理位置。
对于时间,可以通过诸如当前用户终端的定位系统所提供的时间或用户终端的时钟所提供的时间或采集当前用户的当前语音的服务器所提供的时间等多种方式来获取。
对于周边人物,可通过获取其他用户终端自动检测所提供的地理位置或GPS定位信息来确定。例如,当前用户位于“鼎好大厦”,而根据GPS定位信息,获知A、B、C等多个用户位于“鼎好大厦”附近,则将所获知的A、B、C等多个用户作为当前用户的当前周边人物。
另外,周边人物通过识别用户通话中的声音、获得用户终端的短信信息、获得用户终端存储的备忘信息中的一项或多项获得。例如,检测到通话中出现了“老板,我……”,则识别出是与老板说话。周边人物不一定是具体的人,可能是一类身份的人的总称,因为用户可能对于某一类身份的人表现为类似的说话模式。
对于周边活动,同理可通过获取其他用户终端或商户终端自动检测提供的地理位置或GPS定位信息、用户终端存储的活动信息、商户终端提供的活动信息来确定。例如,商户通过终端上的微信发布和分享活动信息,通过获取商户分享的活动信息(包括时间、地点和事件),并比较该活动信息中的地点与当前用户所处的地理位置的距离,来判断该商户分享的活动是否为当前用户的周边活动。
当然,周边活动也可以通过识别用户通话中的声音、获得用户终端的短信信息、获得用户终端存储的备忘信息中的一项或多项获得。例如,用户的短信中有一条短信“我今天下午2点在B大厦观看剪彩活动”,现在正好是下午2点,可以识别出周边活动为大厦剪彩。
当然,上述场景信息仅为示例,并不限于此。
此处的特征向量是指候选实体含义的特征组合。候选实体含义的特征是候选实体含义在某方面表现出的特性,如候选实体含义的流行的程度、候选实体含义与识别出的实体在文字上的差异等,在此不作限定,可以通过诸如预设或初始化处理来获取候选实体含义的诸特征。其中流行的程度可以通过计算该候选实体含义在预定语料库中出现的频次与在预定语料库中出现最多的一个任意短语(包括字和词)或语音相近的短语或字形相近的短语出现的频次的比值来表示,也可以通过计算该候选实体含义在预定语料库中出现的频次的对数与在预定语料库中出现最多的一个任意短语(包括字和词)或语音相近的短语或字形相近的短语出现的频次的对数的比值来表示,在此不作限定。
此处候选实体含义与识别出的实体在文字上的差异可以基于预定的规则计算得分来表征,例如基于预定规则计算得到候选实体含义“上海交通大学”和候选实体含义“北京交通大学”与识别出的实体“交大”在文字上的差异分别为0.5和0.5。
为了更准确地识别不同语境下不同用户等各种不同情况下的实体含义,所述候选实体含义的集合中各候选实体含义的特征向量中的至少一部分特征基于用户查询历史、查询时间、用户位置、周边事件、周边人物、应用使用情况中的一项或多项计算。
例如,基于用户位置计算所述候选实体含义的集合中各候选实体含义的特征向量时,通过计算用户当前位置与所述实体含义所对应的实际地理位置的距离,经过归一化处理,将得到的结果作为所述候选实体含义的特征向量中的一项特征值。
以特征向量包括以下特征为例:候选实体含义的流行的程度、候选实体含义与识别出的实体在文字上的差异、候选实体含义与识别出的实体在地理上的差异,假定该识别出的实体是“交大”,获取到的对应候选实体含义包括“上海交通大学”和“北京交通大学”,这两个候选实体含义对应的特征向量分别为(0.8,0.5,0.2)和(0.6,0.5,0.9)。其中,对于候选实体含义“上海交通大学”而言,流行的程度的特征值是0.8,与识别出的实体“交大”在文字上的差异的特征值是0.5,与识别出的实体在地理上的差异的特征值是0.2;同理,对于候选实体含义“北京交通大学”而言,流行的程度的特征值是0.6,与识别出的实体“交大”在文字上的差异的特征值是0.5,与识别出的实体在地理上的差异的特征值是0.9,即“上海交通大学”在网络等语料库中更流行,“上海交通大学”与“北京交通大学”与“交大”在字面上一样接近,用户当前距离上海交通大学相对北方交通大学更近。
同理,可以结合其他场景信息诸如查询时间、周边事件、周边人物、应用使用情况中的一项或多项来计算各候选实体含义的特征。计算相关特征的规则由本领域技术人员根据需求适用。
步骤S105,基于各候选实体含义的特征向量,计算各候选实体含义的分数,根据计算出的分数从候选实体含义集合中选取候选实体含义作为实体含义识别结果。
在得到各候选实体含义的特征向量后,采用相应的评分函数来计算各候选实体含义的分数。根据分数的排序或分数是否超过预设的阈值来从候选实体含义集合中选取候选实体含义作为实体含义识别结果。
可选地,计算各候选实体含义的分数的步骤包括:使用评分函数计算各候选实体含义的分数。例如,该评分函数以各候选实体含义的特征向量作为输入,通过设定或训练获取的系数对各候选实体含义的特征向量进行线性代数的计算。
例如,假定识别出的实体“交大”所对应的候选实体含义的集合包括:上海交通大学和北京交通大学,对应的特征向量分别为(0.8,0.5,0.2)和(0.6,0.5,0.9),并假定候选实体含义“上海交通大学”的流行的程度、候选实体含义与识别出的实体在文字上的差异、候选实体含义与识别出的实体在地理上的差异在评分函数中对应的参数分别为0.2、0.2、0.6,则基于评分函数进行线性代数的计算,得到候选实体含义“上海交通大学”的得分为0.8为大学函数进行线性代数的计算,得到候选实体0.38,候选实体含义“北方交通大学”的得分为0.6为大学义数进行线性代数的计算,得到候.6=0.76,由上可知,候选实体含义“上海交通大学”的得分低于“北京交通大学”,则选取“北京交通大学”作为实体含义识别结果。
可选地,所述评分函数的系数是利用训练语料作为输入、并对实体含义识别结果进行反馈训练出的。例如,在本地信息库和/或互联网上实时搜索到一些语料输入到评分函数进行训练,使评分函数的系数针对不同的用户都可以充分反映该用户的个性化特点,从而更准确地识别出不同用户的输入对应的实体含义。在此,评分函数既可以针对单个用户进行个性化调整,也可以针对多个用户进行统一调整。
图2示出了根据本发明一个实施例的基于场景信息的实体识别系统,根据图2,所述实体识别系统包括:
输入识别装置201,被配置为识别用户输入以产生输入识别结果。
具体地,其中用户输入包括语音输入和/或文字输入等各种方式的输入。
实体识别装置202,被配置为从输入识别结果中识别出实体。
可选地,请参考图3,图3示出了根据本发明的一个实施例的实体识别装置的示意性框图,根据图3,所述实体识别装置202包括:
分词单元2021,被配置为将输入识别结果分词,并为从输入识别结果中分出的词进行词性标注;
实体判断单元2022,被配置为将每一个字输入分类器,判定每一个字是否是构成实体的字、以及构成实体的开头、中间还是末尾,根据分类器对每一个字的判定结果,判断该词是否是实体。
可选地,所述分类器是通过利用训练语料作为输入、并对分类结果进行反馈训练出的。
候选实体含义获取装置203,被配置为为识别出的实体获取候选实体含义的集合。
可选地,所述候选实体含义获取装置203被配置为:
针对识别出的实体,从实体含义库查找与该实体匹配的候选实体含义。
计算装置204,被配置为基于获取的场景信息,计算所述候选实体含义的集合中各候选实体含义的特征向量。
其中,获取的场景信息包括用户查询历史、查询时间、用户位置、周边事件、周边人物、应用使用情况中的一项或多项。
可选地,所述候选实体含义的集合中各候选实体含义的特征向量中的至少一部分特征基于用户查询历史、查询时间、用户位置、周边事件、周边人物、应用使用情况中的一项或多项计算。
实体含义识别装置205,被配置为基于各候选实体含义的特征向量,计算各候选实体含义的分数,根据计算出的分数从候选实体含义集合中选取候选实体含义作为实体含义识别结果。
可选地,所述实体含义识别装置205被配置为使用评分函数计算各候选实体含义的分数。
可选地,所述评分函数的系数是利用训练语料作为输入、并对实体含义识别结果进行反馈训练出的。
本领域技术人员应能理解,上述输入识别装置、实体识别装置、候选实体含义获取装置、计算装置和实体含义识别装置仅为示例,在实践中,它们可以是各自独立的装置,或者任意多个装置集成在一个装置中。
所属技术领域的技术人员知道,本发明可以实现为设备、装置、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:可以是完全的硬件,也可以是完全的软件,还可以是硬件和软件结合的形式。
附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

Claims (10)

1.一种基于场景信息的实体含义识别方法,包括:
识别用户输入,以产生输入识别结果;
从输入识别结果中识别出实体;
为识别出的实体获取候选实体含义的集合;
基于获取的场景信息,计算所述候选实体含义的集合中各候选实体含义的特征向量;
基于各候选实体含义的特征向量,计算各候选实体含义的分数,根据计算出的分数从候选实体含义集合中选取候选实体含义作为实体含义识别结果。
2.根据权利要求1所述的实体含义识别方法,其中用户输入包括语音输入和/或文字输入。
3.根据权利要求1所述的实体含义识别方法,其中从输入识别结果中识别出实体的步骤包括:
将输入识别结果分词;
为从输入识别结果中分出的词进行词性标注;
将每一个字输入分类器,判定每一个字是否是构成实体的字、以及构成实体的开头、中间还是末尾;
根据分类器对每一个字的判定结果,判断该词是否是实体。
4.根据权利要求3所述的实体含义识别方法,其中
所述分类器是通过利用训练语料作为输入、并对分类结果进行反馈训练出的。
5.根据权利要求1所述的实体含义识别方法,其中为识别出的实体获取候选实体含义的集合的步骤包括:针对识别出的实体,从实体含义库查找与该实体匹配的候选实体含义。
6.根据权利要求1所述的实体含义识别方法,其中
获取的场景信息包括用户查询历史、查询时间、用户位置、周边事件、周边人物、应用使用情况中的一项或多项。
7.根据权利要求6所述的实体含义识别方法,其中所述候选实体含义的集合中各候选实体含义的特征向量中的至少一部分特征基于用户查询历史、查询时间、用户位置、周边事件、周边人物、应用使用情况中的一项或多项计算。
8.根据权利要求1所述的实体含义识别方法,其中计算各候选实体含义的分数的步骤包括:
使用评分函数计算各候选实体含义的分数。
9.根据权利要求8所述的实体含义识别方法,其中评分函数的系数是利用训练语料作为输入、并对实体含义识别结果进行反馈训练出的。
10.一种基于场景信息的实体含义识别系统,包括:
输入识别装置,被配置为识别用户输入以产生输入识别结果;
实体识别装置,被配置为从输入识别结果中识别出实体;
候选实体含义获取装置,被配置为为识别出的实体获取候选实体含义的集合;
计算装置,被配置为基于获取的场景信息,计算所述候选实体含义的集合中各候选实体含义的特征向量;
实体含义识别装置,被配置为基于各候选实体含义的特征向量,计算各候选实体含义的分数,根据计算出的分数从候选实体含义集合中选取候选实体含义作为实体含义识别结果。
CN201410411781.3A 2014-08-20 2014-08-20 一种基于场景信息的实体含义识别方法和系统 Active CN105354199B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410411781.3A CN105354199B (zh) 2014-08-20 2014-08-20 一种基于场景信息的实体含义识别方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410411781.3A CN105354199B (zh) 2014-08-20 2014-08-20 一种基于场景信息的实体含义识别方法和系统

Publications (2)

Publication Number Publication Date
CN105354199A true CN105354199A (zh) 2016-02-24
CN105354199B CN105354199B (zh) 2019-10-08

Family

ID=55330172

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410411781.3A Active CN105354199B (zh) 2014-08-20 2014-08-20 一种基于场景信息的实体含义识别方法和系统

Country Status (1)

Country Link
CN (1) CN105354199B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105975610A (zh) * 2016-05-18 2016-09-28 北京百度网讯科技有限公司 场景识别方法及装置
CN108460016A (zh) * 2018-02-09 2018-08-28 中云开源数据技术(上海)有限公司 一种实体名称分析识别方法
CN109582969A (zh) * 2018-12-04 2019-04-05 联想(北京)有限公司 实体匹配方法、装置及电子设备
CN109614615A (zh) * 2018-12-04 2019-04-12 联想(北京)有限公司 实体匹配方法、装置及电子设备
CN111144102A (zh) * 2019-12-26 2020-05-12 联想(北京)有限公司 用于识别语句中实体的方法、装置和电子设备
CN111428721A (zh) * 2019-01-10 2020-07-17 北京字节跳动网络技术有限公司 词语释义的确定方法、装置、设备及存储介质
CN111666768A (zh) * 2020-06-10 2020-09-15 京东方科技集团股份有限公司 一种中文命名实体的识别方法、识别装置及电子设备
CN113343707A (zh) * 2021-06-04 2021-09-03 北京邮电大学 一种基于鲁棒性表征学习的场景文本识别方法
CN113538075A (zh) * 2020-04-14 2021-10-22 阿里巴巴集团控股有限公司 数据的处理方法、模型的训练方法、装置和设备
US11848016B2 (en) 2018-08-07 2023-12-19 Huawei Technologies Co., Ltd. Voice control command generation method and terminal

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5974412A (en) * 1997-09-24 1999-10-26 Sapient Health Network Intelligent query system for automatically indexing information in a database and automatically categorizing users
CN102866990A (zh) * 2012-08-20 2013-01-09 北京搜狗信息服务有限公司 一种主题对话方法和装置
CN103678281A (zh) * 2013-12-31 2014-03-26 北京百度网讯科技有限公司 对文本进行自动标注的方法和装置
CN103956169A (zh) * 2014-04-17 2014-07-30 北京搜狗科技发展有限公司 一种语音输入方法、装置和系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5974412A (en) * 1997-09-24 1999-10-26 Sapient Health Network Intelligent query system for automatically indexing information in a database and automatically categorizing users
CN102866990A (zh) * 2012-08-20 2013-01-09 北京搜狗信息服务有限公司 一种主题对话方法和装置
CN103678281A (zh) * 2013-12-31 2014-03-26 北京百度网讯科技有限公司 对文本进行自动标注的方法和装置
CN103956169A (zh) * 2014-04-17 2014-07-30 北京搜狗科技发展有限公司 一种语音输入方法、装置和系统

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105975610A (zh) * 2016-05-18 2016-09-28 北京百度网讯科技有限公司 场景识别方法及装置
CN108460016A (zh) * 2018-02-09 2018-08-28 中云开源数据技术(上海)有限公司 一种实体名称分析识别方法
US11848016B2 (en) 2018-08-07 2023-12-19 Huawei Technologies Co., Ltd. Voice control command generation method and terminal
CN109614615B (zh) * 2018-12-04 2022-04-22 联想(北京)有限公司 实体匹配方法、装置及电子设备
CN109582969A (zh) * 2018-12-04 2019-04-05 联想(北京)有限公司 实体匹配方法、装置及电子设备
CN109614615A (zh) * 2018-12-04 2019-04-12 联想(北京)有限公司 实体匹配方法、装置及电子设备
CN111428721A (zh) * 2019-01-10 2020-07-17 北京字节跳动网络技术有限公司 词语释义的确定方法、装置、设备及存储介质
CN111144102A (zh) * 2019-12-26 2020-05-12 联想(北京)有限公司 用于识别语句中实体的方法、装置和电子设备
CN111144102B (zh) * 2019-12-26 2022-05-31 联想(北京)有限公司 用于识别语句中实体的方法、装置和电子设备
CN113538075A (zh) * 2020-04-14 2021-10-22 阿里巴巴集团控股有限公司 数据的处理方法、模型的训练方法、装置和设备
CN111666768A (zh) * 2020-06-10 2020-09-15 京东方科技集团股份有限公司 一种中文命名实体的识别方法、识别装置及电子设备
CN113343707B (zh) * 2021-06-04 2022-04-08 北京邮电大学 一种基于鲁棒性表征学习的场景文本识别方法
CN113343707A (zh) * 2021-06-04 2021-09-03 北京邮电大学 一种基于鲁棒性表征学习的场景文本识别方法

Also Published As

Publication number Publication date
CN105354199B (zh) 2019-10-08

Similar Documents

Publication Publication Date Title
CN105354199A (zh) 一种基于场景信息的实体含义识别方法和系统
US10719507B2 (en) System and method for natural language processing
CN105448292B (zh) 一种基于场景的实时语音识别系统和方法
US9009041B2 (en) Systems and methods for improving the accuracy of a transcription using auxiliary data such as personal data
US11817101B2 (en) Speech recognition using phoneme matching
US9742912B2 (en) Method and apparatus for predicting intent in IVR using natural language queries
US20190370398A1 (en) Method and apparatus for searching historical data
CN111523306A (zh) 文本的纠错方法、装置和系统
CN103903619B (zh) 一种提高语音识别准确率的方法及系统
CN103187052B (zh) 一种建立用于语音识别的语言模型的方法及装置
CN109859760A (zh) 基于深度学习的电话机器人语音识别结果校正方法
CN106649404B (zh) 一种会话场景数据库的创建方法及装置
US20150081294A1 (en) Speech recognition for user specific language
CN111445903B (zh) 企业名称识别方法及装置
US11816609B2 (en) Intelligent task completion detection at a computing device
CN114840671A (zh) 对话生成方法、模型的训练方法、装置、设备及介质
CN109243468A (zh) 语音识别方法、装置、电子设备及存储介质
CN103076893A (zh) 一种用于实现语音输入的方法与设备
CN112632244A (zh) 一种人机通话的优化方法、装置、计算机设备及存储介质
CN101405693A (zh) 多模式输入的个人协作过滤
CN113838461B (zh) 智能语音交互方法、装置、设备和计算机存储介质
CN115269836A (zh) 意图识别方法及装置
CN113436614B (zh) 语音识别方法、装置、设备、系统及存储介质
TW201919040A (zh) 聲控方法及系統
JP6251637B2 (ja) 情報検索方法、装置およびプログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant