CN105354199A

CN105354199A - 一种基于场景信息的实体含义识别方法和系统

Info

Publication number: CN105354199A
Application number: CN201410411781.3A
Authority: CN
Inventors: 沈李斌; 雷欣
Original assignee: Beijing Yushanzhi Information Technology Co Ltd
Current assignee: Beijing Yushanzhi Information Technology Co Ltd
Priority date: 2014-08-20
Filing date: 2014-08-20
Publication date: 2016-02-24
Anticipated expiration: 2034-08-20
Also published as: CN105354199B

Abstract

本发明公开了一种基于场景信息的实体含义识别方法和系统，其中实体含义识别方法包括：识别用户输入，以产生输入识别结果；从输入识别结果中识别出实体；为识别出的实体获取候选实体含义的集合；基于获取的场景信息，计算所述候选实体含义的集合中各候选实体含义的特征向量；基于各候选实体含义的特征向量，计算各候选实体含义的分数，根据计算出的分数从候选实体含义集合中选取候选实体含义作为实体含义识别结果。与现有技术相比，本发明可以有效改善实体含义识别的准确性。

Description

一种基于场景信息的实体含义识别方法和系统

技术领域

本发明涉及信息技术，尤其涉及一种基于场景信息的实体含义识别方法和系统。

背景技术

在信息检索中，首先要识别用户输入，并准确解释用户输入的含义，根据用户输入的含义检索用户需要的内容。在准确解释用户输入的含义时，用户输入中的实体(专用名词，例如颐和园、交大、中山路)的含义识别尤为重要。例如交大，可能存在北京交通大学、上海交通大学、西安交通大学等。在深圳、哈尔滨等都存在中山路。因此，准确识别实体的含义对于信息检索的准确性尤为重要。

发明内容

本发明解决的技术问题之一是提升实体含义识别的准确性。

根据本发明的一个方面的一个实施例，提供了一种基于场景信息的实体含义识别方法，包括：

识别用户输入，以产生输入识别结果；

从输入识别结果中识别出实体；

为识别出的实体获取候选实体含义的集合；

基于获取的场景信息，计算所述候选实体含义的集合中各候选实体含义的特征向量；

基于各候选实体含义的特征向量，计算各候选实体含义的分数，根据计算出的分数从候选实体含义集合中选取候选实体含义作为实体含义识别结果。

根据本发明的一个实施例，所述用户输入包括语音输入和/或文字输入。

根据本发明的一个实施例，从输入识别结果中识别出实体的步骤包括：

将输入识别结果分词；

为从输入识别结果中分出的词进行词性标注；

将每一个字输入分类器，判定每一个字是否是构成实体的字、以及构成实体的开头、中间还是末尾；

根据分类器对每一个字的判定结果，判断该词是否是实体。

根据本发明的一个实施例，所述分类器是通过利用训练语料作为输入、并对分类结果进行反馈训练出的。

根据本发明的一个实施例，为识别出的实体获取候选实体含义的集合的步骤包括：针对识别出的实体，从实体含义库查找与该实体匹配的候选实体含义。

根据本发明的一个实施例，获取的场景信息包括用户查询历史、查询时间、用户位置、周边事件、周边人物、应用使用情况中的一项或多项。

根据本发明的一个实施例，所述候选实体含义的集合中各候选实体含义的特征向量中的至少一部分特征基于用户查询历史、查询时间、用户位置、周边事件、周边人物、应用使用情况中的一项或多项计算。

根据本发明的一个实施例，计算各候选实体含义的分数的步骤包括：

使用评分函数计算各候选实体含义的分数。

根据本发明的一个实施例，所述评分函数的系数是利用训练语料作为输入、并对实体含义识别结果进行反馈训练出的。

根据本发明另一个方面的一个实施例，还提供了一种基于场景信息的实体含义识别系统，包括：

输入识别装置，被配置为识别用户输入以产生输入识别结果；

实体识别装置，被配置为从输入识别结果中识别出实体；

候选实体含义获取装置，被配置为为识别出的实体获取候选实体含义的集合；

计算装置，被配置为基于获取的场景信息，计算所述候选实体含义的集合中各候选实体含义的特征向量；

实体含义识别装置，被配置为基于各候选实体含义的特征向量，计算各候选实体含义的分数，根据计算出的分数从候选实体含义集合中选取候选实体含义作为实体含义识别结果。

根据本发明的一个实施例，用户输入包括语音输入和/或文字输入。

根据本发明的一个实施例，实体识别装置包括：

分词单元，被配置为将输入识别结果分词，并为从输入识别结果中分出的词进行词性标注；

实体判断单元，被配置为将每一个字输入分类器，判定每一个字是否是构成实体的字、以及构成实体的开头、中间还是末尾，根据分类器对每一个字的判定结果，判断该词是否是实体。

根据本发明的一个实施例，所述候选实体含义获取装置被配置为：

针对识别出的实体，从实体含义库查找与该实体匹配的候选实体含义。

根据本发明的一个实施例，所述实体含义识别装置被配置为使用评分函数计算各候选实体含义的分数。

与仅采用通用模型的现有技术相比，本发明的实施例所提供的技术方案，通过基于获取的场景信息而不仅是通用模型来分析候选实体含义，根据不同的场景信息对候选实体含义进行针对性地分析，较大地提升了实体含义识别的准确性。

本领域普通技术人员将了解，虽然下面的详细说明将参考图示实施例、附图进行，但本发明并不仅限于这些实施例。而是，本发明的范围是广泛的，且意在仅通过后附的权利要求限定本发明的范围。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1示出根据本发明一个实施例的基于场景信息的实体含义识别方法的流程图；

图2示出了根据本发明一个实施例的基于场景信息的实体含义识别系统的示意性框图；

图3示出了根据本发明的一个实施例的实体识别装置的示意性框图；

附图中相同或相似的附图标记代表相同或相似的部件。

具体实施方式

下面结合附图对本发明作进一步详细描述。

图1示出了根据本发明一个实施例的基于场景信息的实体含义识别方法的流程图。根据图1，所述实体含义识别方法包括：

步骤S101，识别用户输入，以产生输入识别结果。

可选地，所述用户输入包括诸如语音输入、文字输入等各种输入方式，文字输入可包括诸如字形输入和拼音输入。当用户输入为文字输入时，输入识别结果即输入的文字；当用户输入为语音输入时，可以基于声学模型识别出音节，通过查询字典中音节与文本的可能映射关系，利用语言模型进行语音解码，识别出对应的文本作为输入识别结果。语音解码目前已有成熟技术。

以语音识别为例，用户输入为“woyaoqujiaoda”，输入识别结果为“我要去交大”。

步骤S102，从输入识别结果中识别出实体。

实体是输入识别结果中的专用名词，例如地点、人名等。

可选地，对输入识别结果进行一系列的预处理，诸如编码转换、全角半角转换等。预处理后，基于相应的规则、统计方法或机器学习方法从输入识别结果中识别出实体。

可选地，从输入识别结果中识别出实体的步骤包括：

-将输入识别结果分词；

例如，将输入识别结果“我要去交大”进行分词，得到“我/要/去/交大”，分词的方法是已有技术，在此不作限定，包括诸如基于字符串匹配的分词方法、基于理解的分词方法、基于统计的分词方法等。通过分词，将输入识别结果切分为一个一个的词。

-为从输入识别结果中分出的词进行词性标注；

例如，为上文中切分后的各个词“我/要/去/交大”进行词性标注，我-代词，要-助动词，去-动词，交大-名词。词性标注的方法是已有技术。

通过分词和词性标注，可以提升实体识别的准确率。分词后的名词也可以作为训练语料，为构建实体识别的模型服务。

-将每一个字输入分类器，判定每一个字是否是构成实体的字、以及构成实体的开头、中间还是末尾；

可选地，本实施例中的分类器是通过利用大量训练语料作为输入、并对分类结果进行反馈训练出的。分类器是建模领域常用的模型，能利用大量输入训练，得到分类，并通过接受用户反馈不断完善分类的性能。诸如，将大量通用名词和专用名词(实体)等作为训练语料，将其中的每一个字输入到分类器中以对分类器进行训练，让分类器学习这个字是经常构成实体的开头一个字、末尾一个字、中间的字、还是不经常构成实体中的字。并对分类结果进行反馈训练。例如，由专家判定分类器分类结果是否正确，当不准确时反馈给分类器，让分类器重新学习，分类器经过这样的不断学习，即能下次分类更准确。在本实施例中，分类器的分类方法在此不作限定，包括诸如决策树分类法、贝叶斯分类算法、神经网络算法、模糊分类算法等。

训练后的分类器，就可以对词中的字是否构成实体的一部分进行判定，例如以名词“交大”为例，通过分类器，可以判断出“交”经常构成实体的开头、“大”经常构成实体的末尾。

-根据分类器对每一个字的判定结果，判断该词是否是实体。

例如，当判断出“交”经常构成实体的开头、“大”经常构成实体的末尾，判断“交大”为一个实体。

步骤S103，为识别出的实体获取候选实体含义的集合。

可选地，针对识别出的实体，从实体含义库查找与该实体匹配的候选实体含义。本实施例中，实体含义库可以通过收集相应实体词典数据或/和从相应的专业网站上收集相应的实体数据等各种方式来预先构建，并实时或定期更新。

例如，当识别出的实体是“交大”时，从实体含义库找到其候选实体含义有“北京交通大学”、“上海交通大学”、“西安交通大学”等。

步骤S104，基于获取的场景信息，计算所述候选实体含义的集合中各候选实体含义的特征向量。此处的场景是指用户进行检索时所处的条件和环境，例如说话的地理位置、时间、周围人物是谁、周围活动是什么(在什么活动中说的)、用户终端存储和检测到的其他信息(如终端上各app使用的频率、日历信息)等。可选地，获取的场景信息包括用户查询历史、查询时间、查询地点、周边事件、周边人物、应用使用情况中的一项或多项。

其中的场景信息可以通过以下方式来获取：

对于当前用户的地理位置，通过当前用户终端定时上报、或主动向用户终端查询从定位系统获得的地理位置、用户终端的短信信息、用户终端存储的备忘信息、日历信息中的一项或多项获得。

例如，当前用户通过手机发了一条短信“我现在在A公司楼下等你”给其他用户，则根据该短信内容获取其中的地理信息“其公司”，通过查询第三方提供的地图数据，查询与该地理信息“通公司”对应的地理位置。

对于时间，可以通过诸如当前用户终端的定位系统所提供的时间或用户终端的时钟所提供的时间或采集当前用户的当前语音的服务器所提供的时间等多种方式来获取。

对于周边人物，可通过获取其他用户终端自动检测所提供的地理位置或GPS定位信息来确定。例如，当前用户位于“鼎好大厦”，而根据GPS定位信息，获知A、B、C等多个用户位于“鼎好大厦”附近，则将所获知的A、B、C等多个用户作为当前用户的当前周边人物。

另外，周边人物通过识别用户通话中的声音、获得用户终端的短信信息、获得用户终端存储的备忘信息中的一项或多项获得。例如，检测到通话中出现了“老板，我……”，则识别出是与老板说话。周边人物不一定是具体的人，可能是一类身份的人的总称，因为用户可能对于某一类身份的人表现为类似的说话模式。

对于周边活动，同理可通过获取其他用户终端或商户终端自动检测提供的地理位置或GPS定位信息、用户终端存储的活动信息、商户终端提供的活动信息来确定。例如，商户通过终端上的微信发布和分享活动信息，通过获取商户分享的活动信息(包括时间、地点和事件)，并比较该活动信息中的地点与当前用户所处的地理位置的距离，来判断该商户分享的活动是否为当前用户的周边活动。

当然，周边活动也可以通过识别用户通话中的声音、获得用户终端的短信信息、获得用户终端存储的备忘信息中的一项或多项获得。例如，用户的短信中有一条短信“我今天下午2点在B大厦观看剪彩活动”，现在正好是下午2点，可以识别出周边活动为大厦剪彩。

当然，上述场景信息仅为示例，并不限于此。

此处的特征向量是指候选实体含义的特征组合。候选实体含义的特征是候选实体含义在某方面表现出的特性，如候选实体含义的流行的程度、候选实体含义与识别出的实体在文字上的差异等，在此不作限定，可以通过诸如预设或初始化处理来获取候选实体含义的诸特征。其中流行的程度可以通过计算该候选实体含义在预定语料库中出现的频次与在预定语料库中出现最多的一个任意短语(包括字和词)或语音相近的短语或字形相近的短语出现的频次的比值来表示，也可以通过计算该候选实体含义在预定语料库中出现的频次的对数与在预定语料库中出现最多的一个任意短语(包括字和词)或语音相近的短语或字形相近的短语出现的频次的对数的比值来表示，在此不作限定。

此处候选实体含义与识别出的实体在文字上的差异可以基于预定的规则计算得分来表征，例如基于预定规则计算得到候选实体含义“上海交通大学”和候选实体含义“北京交通大学”与识别出的实体“交大”在文字上的差异分别为0.5和0.5。

为了更准确地识别不同语境下不同用户等各种不同情况下的实体含义，所述候选实体含义的集合中各候选实体含义的特征向量中的至少一部分特征基于用户查询历史、查询时间、用户位置、周边事件、周边人物、应用使用情况中的一项或多项计算。

例如，基于用户位置计算所述候选实体含义的集合中各候选实体含义的特征向量时，通过计算用户当前位置与所述实体含义所对应的实际地理位置的距离，经过归一化处理，将得到的结果作为所述候选实体含义的特征向量中的一项特征值。

以特征向量包括以下特征为例：候选实体含义的流行的程度、候选实体含义与识别出的实体在文字上的差异、候选实体含义与识别出的实体在地理上的差异，假定该识别出的实体是“交大”，获取到的对应候选实体含义包括“上海交通大学”和“北京交通大学”，这两个候选实体含义对应的特征向量分别为(0.8,0.5,0.2)和(0.6,0.5,0.9)。其中，对于候选实体含义“上海交通大学”而言，流行的程度的特征值是0.8，与识别出的实体“交大”在文字上的差异的特征值是0.5，与识别出的实体在地理上的差异的特征值是0.2；同理，对于候选实体含义“北京交通大学”而言，流行的程度的特征值是0.6，与识别出的实体“交大”在文字上的差异的特征值是0.5，与识别出的实体在地理上的差异的特征值是0.9，即“上海交通大学”在网络等语料库中更流行，“上海交通大学”与“北京交通大学”与“交大”在字面上一样接近，用户当前距离上海交通大学相对北方交通大学更近。

同理，可以结合其他场景信息诸如查询时间、周边事件、周边人物、应用使用情况中的一项或多项来计算各候选实体含义的特征。计算相关特征的规则由本领域技术人员根据需求适用。

步骤S105，基于各候选实体含义的特征向量，计算各候选实体含义的分数，根据计算出的分数从候选实体含义集合中选取候选实体含义作为实体含义识别结果。

在得到各候选实体含义的特征向量后，采用相应的评分函数来计算各候选实体含义的分数。根据分数的排序或分数是否超过预设的阈值来从候选实体含义集合中选取候选实体含义作为实体含义识别结果。

可选地，计算各候选实体含义的分数的步骤包括：使用评分函数计算各候选实体含义的分数。例如，该评分函数以各候选实体含义的特征向量作为输入，通过设定或训练获取的系数对各候选实体含义的特征向量进行线性代数的计算。

例如，假定识别出的实体“交大”所对应的候选实体含义的集合包括：上海交通大学和北京交通大学，对应的特征向量分别为(0.8,0.5,0.2)和(0.6,0.5,0.9)，并假定候选实体含义“上海交通大学”的流行的程度、候选实体含义与识别出的实体在文字上的差异、候选实体含义与识别出的实体在地理上的差异在评分函数中对应的参数分别为0.2、0.2、0.6，则基于评分函数进行线性代数的计算，得到候选实体含义“上海交通大学”的得分为0.8为大学函数进行线性代数的计算，得到候选实体0.38，候选实体含义“北方交通大学”的得分为0.6为大学义数进行线性代数的计算，得到候.6＝0.76，由上可知，候选实体含义“上海交通大学”的得分低于“北京交通大学”，则选取“北京交通大学”作为实体含义识别结果。

可选地，所述评分函数的系数是利用训练语料作为输入、并对实体含义识别结果进行反馈训练出的。例如，在本地信息库和/或互联网上实时搜索到一些语料输入到评分函数进行训练，使评分函数的系数针对不同的用户都可以充分反映该用户的个性化特点，从而更准确地识别出不同用户的输入对应的实体含义。在此，评分函数既可以针对单个用户进行个性化调整，也可以针对多个用户进行统一调整。

图2示出了根据本发明一个实施例的基于场景信息的实体识别系统，根据图2，所述实体识别系统包括：

输入识别装置201，被配置为识别用户输入以产生输入识别结果。

具体地，其中用户输入包括语音输入和/或文字输入等各种方式的输入。

实体识别装置202，被配置为从输入识别结果中识别出实体。

可选地，请参考图3，图3示出了根据本发明的一个实施例的实体识别装置的示意性框图，根据图3，所述实体识别装置202包括：

分词单元2021，被配置为将输入识别结果分词，并为从输入识别结果中分出的词进行词性标注；

实体判断单元2022，被配置为将每一个字输入分类器，判定每一个字是否是构成实体的字、以及构成实体的开头、中间还是末尾，根据分类器对每一个字的判定结果，判断该词是否是实体。

可选地，所述分类器是通过利用训练语料作为输入、并对分类结果进行反馈训练出的。

候选实体含义获取装置203，被配置为为识别出的实体获取候选实体含义的集合。

可选地，所述候选实体含义获取装置203被配置为：

计算装置204，被配置为基于获取的场景信息，计算所述候选实体含义的集合中各候选实体含义的特征向量。

其中，获取的场景信息包括用户查询历史、查询时间、用户位置、周边事件、周边人物、应用使用情况中的一项或多项。

可选地，所述候选实体含义的集合中各候选实体含义的特征向量中的至少一部分特征基于用户查询历史、查询时间、用户位置、周边事件、周边人物、应用使用情况中的一项或多项计算。

实体含义识别装置205，被配置为基于各候选实体含义的特征向量，计算各候选实体含义的分数，根据计算出的分数从候选实体含义集合中选取候选实体含义作为实体含义识别结果。

可选地，所述实体含义识别装置205被配置为使用评分函数计算各候选实体含义的分数。

可选地，所述评分函数的系数是利用训练语料作为输入、并对实体含义识别结果进行反馈训练出的。

本领域技术人员应能理解，上述输入识别装置、实体识别装置、候选实体含义获取装置、计算装置和实体含义识别装置仅为示例，在实践中，它们可以是各自独立的装置，或者任意多个装置集成在一个装置中。

所属技术领域的技术人员知道，本发明可以实现为设备、装置、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：可以是完全的硬件，也可以是完全的软件，还可以是硬件和软件结合的形式。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

Claims

1.一种基于场景信息的实体含义识别方法，包括：

识别用户输入，以产生输入识别结果；

从输入识别结果中识别出实体；

为识别出的实体获取候选实体含义的集合；

2.根据权利要求1所述的实体含义识别方法，其中用户输入包括语音输入和/或文字输入。

3.根据权利要求1所述的实体含义识别方法，其中从输入识别结果中识别出实体的步骤包括：

将输入识别结果分词；

为从输入识别结果中分出的词进行词性标注；

根据分类器对每一个字的判定结果，判断该词是否是实体。

4.根据权利要求3所述的实体含义识别方法，其中

所述分类器是通过利用训练语料作为输入、并对分类结果进行反馈训练出的。

5.根据权利要求1所述的实体含义识别方法，其中为识别出的实体获取候选实体含义的集合的步骤包括：针对识别出的实体，从实体含义库查找与该实体匹配的候选实体含义。

6.根据权利要求1所述的实体含义识别方法，其中

获取的场景信息包括用户查询历史、查询时间、用户位置、周边事件、周边人物、应用使用情况中的一项或多项。

7.根据权利要求6所述的实体含义识别方法，其中所述候选实体含义的集合中各候选实体含义的特征向量中的至少一部分特征基于用户查询历史、查询时间、用户位置、周边事件、周边人物、应用使用情况中的一项或多项计算。

8.根据权利要求1所述的实体含义识别方法，其中计算各候选实体含义的分数的步骤包括：

使用评分函数计算各候选实体含义的分数。

9.根据权利要求8所述的实体含义识别方法，其中评分函数的系数是利用训练语料作为输入、并对实体含义识别结果进行反馈训练出的。

10.一种基于场景信息的实体含义识别系统，包括：

实体识别装置，被配置为从输入识别结果中识别出实体；