CN108304375B - 一种信息识别方法及其设备、存储介质、终端 - Google Patents

一种信息识别方法及其设备、存储介质、终端 Download PDF

Info

Publication number
CN108304375B
CN108304375B CN201711116576.4A CN201711116576A CN108304375B CN 108304375 B CN108304375 B CN 108304375B CN 201711116576 A CN201711116576 A CN 201711116576A CN 108304375 B CN108304375 B CN 108304375B
Authority
CN
China
Prior art keywords
entity
information
keyword
target
corpus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711116576.4A
Other languages
English (en)
Other versions
CN108304375A (zh
Inventor
崔建苓
林芬
鲁亚楠
譚翊章
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Tencent Technology Co Ltd
Original Assignee
Guangzhou Tencent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Tencent Technology Co Ltd filed Critical Guangzhou Tencent Technology Co Ltd
Priority to CN201711116576.4A priority Critical patent/CN108304375B/zh
Publication of CN108304375A publication Critical patent/CN108304375A/zh
Application granted granted Critical
Publication of CN108304375B publication Critical patent/CN108304375B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/635Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing

Abstract

本发明实施例公开一种信息识别方法及其设备、存储介质、终端,其中方法包括如下步骤:获取针对音乐应用输入的目标语料,采用实体词典库对所述目标语料进行匹配处理,以获取所述目标语料的实体关键字集合;采用训练后的信息识别模型对所述实体关键字集合进行实体标注处理,以获取所述目标语料对应的实体标注结果以及所述实体标注结果对应的标注分值;基于所述标注分值在所述实体关键字集合中获取所述目标语料对应的第一实体识别信息。采用本发明,可以准确识别目标语料的信息,提高了与音乐相关联的无规则语料识别的准确率。

Description

一种信息识别方法及其设备、存储介质、终端
技术领域
本发明涉及互联网技术领域,尤其涉及一种信息识别方法及其设备、存储介质、终端。
背景技术
语料识别技术是指将用户所输入的语料进行识别,以了解用户意图的过程。目前,语料识别技术相对成熟,针对不同的领域和不同的语料特征都有较为成熟的解决方法。
对于语义特征明显的语料,如人名识别,其姓和名用词均较为固定,所在语句上下文也有明显的特征,可以用传统的机器学习技术,如序列标注模型(隐马尔科夫模型/条件随机场)进行识别;对于具有特定语法和句式的语料,如手机电话号码,其位数固定,首位固定为1,前三位可根据运行商的设定固定下来,后8位为任意数字组合,则可以采用正则表达式进行识别。而在垂直问答的音乐语料识别中,用户输入的不再是音乐网站中具有明显特征或特定句式的与音乐相关联的语料,而通常是一些口语化的自由表达,如“今天我要听张学友的歌”,而采用上述两种方式都无法准确识别语料内容,因此,存在对与音乐相关联的无规则语料识别准确率低的问题,难以取得较好的识别结果。
发明内容
本发明实施例提供一种信息识别方法及其设备、存储介质、终端,可以准确识别目标语料的信息,提高了与音乐关联的无规则语料识别的准确率。
本发明实施例第一方面提供了一种信息识别方法,可包括:
获取针对音乐应用输入的目标语料,采用实体词典库对所述目标语料进行匹配处理,以获取所述目标语料的实体关键字集合;
采用训练后的信息识别模型对所述实体关键字集合进行实体标注处理,以获取所述目标语料对应的实体标注结果以及所述实体标注结果对应的标注分值;
基于所述标注分值在所述实体关键字集合中获取所述目标语料对应的第一实体识别信息。
可选的,所述获取针对音乐应用输入的目标语料之前,还包括:
获取源数据,采用过滤关键字规则对所述源数据进行筛选处理,以获取目标数据;
获取所述目标数据中的第一实体关键字以及所述第一实体关键字的属性信息;
将所述第一实体关键字以及所述第一实体关键字的属性信息保存至实体词典库中。
可选的,所述将所述第一实体关键字以及所述第一实体关键字的属性信息保存至实体词典库中,包括:
基于所述属性信息的属性优先级对所述第一实体关键字进行分级处理,并在分级处理后的所述第一实体关键字中获取等级最高的第二实体关键字。
可选的,所述获取针对音乐应用输入的目标语料之前,还包括:
采集样本语料,获取所述样本语料中的第三实体关键字;
创建信息识别模型,基于所述样本语料以及所述第三实体关键字对所述信息识别模型进行训练。
可选的,所述创建信息识别模型,基于所述样本语料以及所述第三实体关键字对所述信息识别模型进行训练,包括:
创建信息识别模型,将所述样本语料以及所述第三实体关键字作为所述信息识别模型的输入,并获取所述信息识别模型的识别准确率;
当所述识别准确率大于或者等于准确率阈值时,生成训练后的所述信息识别模型。
可选的,所述将所述样本语料以及所述第三实体关键字作为所述信息识别模型的输入,并获取所述信息识别模型的识别准确率,包括:
将所述样本语料以及所述第三实体关键字作为所述信息识别模型的输入,并获取所述信息识别模型输出的目标实体识别信息;
检测所述目标实体识别信息是否与所述第三实体关键字相匹配;
在所述目标实体识别信息与所述第三实体关键字不匹配时,基于词性属性信息对所述信息识别模型进行调整处理,并在调整处理后执行将所述样本语料以及所述第三实体关键字作为所述信息识别模型的输入的步骤;
在所述目标实体识别信息与所述第三实体关键字相匹配时,获取所述信息识别模型的识别准确率。
可选的,所述基于所述标注分值在所述实体关键字集合中获取所述目标语料对应的第一实体识别信息,包括:
获取所述实体标注结果中标注分值最高的目标实体标注结果;
在所述实体关键字集合中获取所述目标实体标注结果对应的目标实体关键字,将所述目标实体关键字作为所述目标语料对应的第一实体识别信息。
可选的,所述方法还包括:
采用所述第一实体识别信息在歌曲数据库中进行搜索处理,以获取与所述目标语料相关联的音乐信息。
可选的,所述获取针对音乐应用输入的目标语料之后,还包括:
采用训练后的信息纠错模型并基于所述目标语料获取所述目标语料对应的第二实体识别信息;
所述采用所述第一实体识别信息在歌曲数据库中进行搜索处理,以获取与所述目标语料相关联的音乐信息,包括:
采用所述第一实体识别信息以及所述第二实体识别信息在歌曲数据库中进行搜索处理,以获取与所述目标语料相关联的音乐信息。
可选的,所述采用训练后的信息纠错模型并基于所述目标语料获取所述目标语料对应的第二实体识别信息,包括:
采用训练后的信息纠错模型对所述目标语料进行字段调整处理,并获取字段调整处理后所述目标语料的置信度;
在所述置信度大于调整置信度阈值时,识别所述字段调整处理后的目标语料的第二实体识别信息。
本发明实施例第二方面提供了一种信息识别设备,可包括:
集合获取单元,用于获取针对音乐应用输入的目标语料,采用实体词典库对所述目标语料进行匹配处理,以获取所述目标语料的实体关键字集合;
分值标注单元,用于采用训练后的信息识别模型对所述实体关键字集合进行实体标注处理,以获取所述目标语料对应的实体标注结果以及所述实体标注结果对应的标注分值;
第一识别单元,用于基于所述标注分值在所述实体关键字集合中获取所述目标语料对应的第一实体识别信息。
可选的,所述设备还包括:
目标数据获取单元,用于获取源数据,采用过滤关键字规则对所述源数据进行筛选处理,以获取目标数据;
属性信息获取单元,用于获取所述目标数据中的第一实体关键字以及所述第一实体关键字的属性信息;
关键字保存单元,用于将所述第一实体关键字以及所述第一实体关键字的属性信息保存至实体词典库中。
可选的,所述关键字保存单元具体用于:
基于所述属性信息的属性优先级对所述第一实体关键字进行分级处理,并在分级处理后的所述第一实体关键字中获取等级最高的第二实体关键字。
可选的,所述设备还包括:
关键字采集单元,用于采集样本语料,获取所述样本语料中的第三实体关键字;
模型训练单元,用于创建信息识别模型,基于所述样本语料以及所述第三实体关键字对所述信息识别模型进行训练。
可选的,所述模型训练单元包括:
准确率获取子单元,用于创建信息识别模型,将所述样本语料以及所述第三实体关键字作为所述信息识别模型的输入,并获取所述信息识别模型的识别准确率;
模型生成子单元,用于当所述识别准确率大于或者等于准确率阈值时,生成训练后的所述信息识别模型。
可选的,所述准确率获取子单元具体用于:
将所述样本语料以及所述第三实体关键字作为所述信息识别模型的输入,并获取所述信息识别模型输出的目标实体识别信息;
检测所述目标实体识别信息是否与所述第三实体关键字相匹配;
在所述目标实体识别信息与所述第三实体关键字不匹配时,基于词性属性信息对所述信息识别模型进行调整处理,并在调整处理后执行将所述样本语料以及所述第三实体关键字作为所述信息识别模型的输入的步骤;
在所述目标实体识别信息与所述第三实体关键字相匹配时,获取所述信息识别模型的识别准确率。
可选的,第一识别单元,包括:
目标结果获取子单元,用于获取所述实体标注结果中标注分值最高的目标实体标注结果;
第一信息确定子单元,用于在所述实体关键字集合中获取所述目标实体标注结果对应的目标实体关键字,将所述目标实体关键字作为所述目标语料对应的第一实体识别信息。
可选的,所述设备还包括:
信息搜索单元,用于采用所述第一实体识别信息在歌曲数据库中进行搜索处理,以获取与所述目标语料相关联的音乐信息。
可选的,所述设备还包括:
第二识别单元,用于采用训练后的信息纠错模型并基于所述目标语料获取所述目标语料对应的第二实体识别信息;
所述信息搜索单元具体用于:
采用所述第一实体识别信息以及所述第二实体识别信息在歌曲数据库中进行搜索处理,以获取与所述目标语料相关联的音乐信息。
可选的,所述第二识别单元,包括:
置信度获取子单元,用于采用训练后的信息纠错模型对所述目标语料进行字段调整处理,并获取字段调整处理后所述目标语料的置信度;
信息识别子单元,用于在所述置信度大于调整置信度阈值时,识别所述字段调整处理后的目标语料的第二实体识别信息。
本发明实施例第三方面提供了一种计算机存储介质,所述计算机存储介质存储有多条指令,所述指令适于由处理器加载并执行以下步骤:
获取针对音乐应用输入的目标语料,采用实体词典库对所述目标语料进行匹配处理,以获取所述目标语料的实体关键字集合;
采用训练后的信息识别模型对所述实体关键字集合进行实体标注处理,以获取所述目标语料对应的实体标注结果以及所述实体标注结果对应的标注分值;
基于所述标注分值在所述实体关键字集合中获取所述目标语料对应的第一实体识别信息。
本发明实施例第四方面提供了一种终端,可包括:处理器和存储器;其中,所述存储器存储有计算机程序,所述计算机程序适于由所述处理器加载并执行以下步骤:
获取针对音乐应用输入的目标语料,采用实体词典库对所述目标语料进行匹配处理,以获取所述目标语料的实体关键字集合;
采用训练后的信息识别模型对所述实体关键字集合进行实体标注处理,以获取所述目标语料对应的实体标注结果以及所述实体标注结果对应的标注分值;
基于所述标注分值在所述实体关键字集合中获取所述目标语料对应的第一实体识别信息。
在本发明实施例中,通过获取针对音乐应用输入的目标语料,并采用实体词典库对目标语料进行匹配处理,以获取目标语料的实体关键字集合,然后采用训练后的信息识别模型对实体关键字集合进行实体标注处理,以获取实体标注结果以及相应的标注分值,再基于标注分值在实体关键字集合中确定目标语料对应的第一实体识别信息。通过结合实体词典库对带有音乐意图的任意形式的目标语料中实体关键字的识别,并由信息识别模型对所识别到的实体关键字的判断,可以准确识别目标语料的信息,提高了无规则音乐语料识别的准确率,可以得到较好的识别结果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种信息识别方法的流程示意图;
图2是本发明实施例提供的另一种信息识别方法的流程示意图;
图3是本发明实施例提供的一种人工标注工具的界面示意图;
图4是本发明实施例提供的另一种信息识别方法的流程示意图;
图5是本发明实施例提供的一种搜索信息展示界面示意图;
图6是本发明实施例提供的另一种信息识别方法的流程示意图;
图7是本发明实施例提供的另一种信息识别方法的流程示意图;
图8是本发明实施例提供的一种信息纠错模型改写的界面示意图;
图9是本发明实施例提供的一种信息识别设备的结构示意图;
图10是本发明实施例提供的另一种信息识别设备的结构示意图;
图11是本发明实施例提供的一种模型训练单元的结构示意图;
图12是本发明实施例提供一种第一识别单元的结构示意图;
图13是本发明实施例提供一种第二识别单元的结构示意图;
图14是本发明实施例提供的一种终端的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供的信息识别方法可以应用于语料识别的场景,如对搜索引擎中输入的语料识别或对针对音乐、视频、小说、电影等专名实体关联的语料识别等,尤其适用于无规则音乐语料的识别场景,通过获取针对音乐应用输入的目标语料,并采用实体词典库对目标语料进行匹配处理,以获取目标语料的实体关键字集合,然后采用训练后的信息识别模型对实体关键字集合进行实体标注处理,以获取实体标注结果以及相应的标注分值,再基于标注分值在实体关键字集合中确定目标语料对应的第一实体识别信息。通过结合实体词典库对带有音乐意图的任意形式的目标语料中实体关键字的识别以及信息识别模型对实体关键字的判断,可以准确识别目标语料的信息,提高了无规则音乐语料识别的准确率,可以得到较好的识别结果。
本发明实施例涉及的信息识别方法的执行依赖于计算机程序,可基于信息识别设备运行于冯若依曼体系的计算机系统之上。该信息识别设备可以包括平板电脑、个人计算机(PC)、智能手机、掌上电脑以及移动互联网设备(MID)等终端设备。
下面将结合附图1-附图8,对本发明实施例提供的信息识别方法进行详细介绍。
请参见图1,为本发明实施例提供了一种信息识别方法的流程示意图。如图1所示,本发明实施例的所述方法可以包括以下步骤S101-步骤S103。
S101,获取针对音乐应用输入的目标语料,采用实体词典库对所述目标语料进行匹配处理,以获取所述目标语料的实体关键字集合;
可以理解的是,所述语料是指在统计自然语言处理中实际上不可能观测到的大规模的语言实例,包括文本以及文本的上下文关系。一个文本集合称为一个语料库,多个这样的文本集合,则称为语料库集合。在本发明实施例中,所述目标语料即为用户针对音乐应用输入的用于识别的语料,可以为在音乐应用的搜索栏中输入的相关语料,如“我想听张学友的歌”、“好烦,听首歌”。所述输入的方式可以为文本输入,也可以为语音输入,还可以为手势动作输入等。
所述实体词典库是指从原始数据库(如音乐曲库)接收到的结构化数据(源数据),对于音乐曲库而言,所述源数据可以包括歌曲名、歌手名、专辑名、播放量、流行度、歧义度等各种信息。其中,歌曲名、歌手名以及专辑名为实体关键字。可选的,所述实体词典库中的信息存储形式可以为(歌曲名、歌手名、专辑名、播放量)的列表形式,也可以为多个子集合形式,如歌曲名集合,歌手名集合,专辑名集合等。
可选的,可对源数据进行筛选处理,如采用过滤关键字规则对所述源数据进行筛选处理,以滤除播放量为0、长度过长、无意义专名、全为数字、乱码等特征(标记为valid=0)的实体关键字,从而获取目标数据,所述目标数据包括第一实体关键字以及第一实体关键字的属性信息。所述筛选处理的目的是防止噪音数据形成异常点,干扰系统性能。
具体的,所述属性信息可以包括歌曲的流行度以及歧义度。
流行度是衡量歌曲流行程度的指标,计算公式为pop(y)=(rwqq+rwwx)/2,其中
Figure BDA0001466524460000081
rwqq和rwwx分别为近期(最近一周)播放量在音乐播放器榜单上的最高占比和全部播放量在榜单上的最高占比。结合时间衰减的新歌流行程度和经典流行度,借鉴心理学遗忘现象的遗忘和记忆加强特征,用取较大函数max,得到近期(近一周)和经典歌曲的流行度,也就是说如果是一首新歌,即使总播放量不高,但近一周播放量较高时也可以认为这首新歌流行度高;如果一首经典歌曲,总播放量很高,则认为流行度也会较高。歧义度是指实体关键字在一定语境下的一词多义程度,包括在目标类型下的实体关键字(音乐实体关键字)、目标类型以外的其他类型下的实体关键字(非音乐类实体关键字)以及非实体关键字(普通语气词或助词等)三种情况,如歌曲名“听说”,在“电影听说主题曲”中是电影名,为非音乐实体关键字,在“听说最近有首歌很好听”中是非实体关键字。可以通过统计该实体关键字在各类垂直意图(音乐、视频、小说、新闻、闲聊等)类型下的语料中出现次数,按照tf-idf计算得到词语在意图和实体类型上的歧义度wordIntenEntityDisamDegree,如:
wordIntenEntityDisamDegree(“听说”,“音乐”,“歌曲名”)=tf(“听说”,“音乐”,“歌曲名”)*idf(“听说”),其中,tf=听说作为歌曲名在音乐语料中出现的次数,idf=log(N/(df+1)),N表示全部文档数,df表示出现听说的文档数。
进一步的,可基于第一实体关键字的属性信息的属性优先级对第一实体关键字进行分级处理,从而可以得到不同等级的第一实体关键字,并在分级处理后的第一实体关键字中获取等级最高的第二实体关键字。所述等级最高表示歧义度低且流行度高,相应的,等级最低表示歧义度大或流行度低。
具体实现中,当信息识别设备检测到用户针对音乐应用输入的目标语料时,将该目标语料与实体词典库中的第一实体关键字进行匹配,所述匹配方式可以为与实体词典库中的各个实体子集合分别进行匹配,也可以为与实体词典库中的实体列表中的每列实体关键字分别进行匹配,从而得到实体关键字集合。所述实体关键字集合中的实体关键字可以为一组,也可以为多组。
可选的,为了匹配高效,可采用双数组(Double Array Trie,DAT)进行匹配。DAT是Trie树的一种变形,它是在保证TRIE树检索速度的前提下,提高空间利用率而提出的一种数据结构,本质上是一个确定有限自动机(Deterministic Finite Automaton,DFA)。所谓的DFA就是一个能实现状态转移的自动机。对于一个给定的属于该自动机的状态和一个属于该自动机字母表Σ的字符,它都能根据事先给定的转移函数转移到下一个状态。对于DAT,每个节点代表自动机的一个状态,根据变量的不同,进行状态转移,当到达结束状态或者无法转移的时候,完成查询。
需要说明的是,在对目标语料进行实体关键字识别前,首先识别该目标语料的意图,如是否为点歌意图,若是,则进行实体识别,否则,滤除这类语料。
可选的,在所输入的目标语料无法准确完整识别时,可采用信息纠错模型对目标语料中的实体关键字进行字段调整处理、字段纠错改写处理等。所述信息纠错模型用于对用户在检索引擎中输入的查询信息进行分析改写,以获取用户查询需求,帮助用户找到合适的查询结果。在本发明实施例中,通过使用纠错技术在语音识别误差、记忆误差、省略等情况下帮助用户找到正确的实体。由于信息识别模型对不符合语言习惯的语料以及不在实体词典库中的实体关键字无法识别,因此基于信息纠错模型可以弥补信息识别模型未覆盖的范围,在实际使用评估中可以提高2%的召回率。所述信息纠错模型可以为信道噪声模型-隐马尔科夫模型。所述信道噪声模型-隐马尔科夫模型,是一种基于概率的统计分析模型,用来描述一个系统隐性状态的转移和隐性状态的表现概率。
S102,采用训练后的信息识别模型对所述实体关键字集合进行实体标注处理,以获取所述目标语料对应的实体标注结果以及所述实体标注结果对应的标注分值;
可以理解的是,所述信息识别模型可以为线性链条件随机场模型、LSTM-CRF(LongShort-Term Memory-Conditional Random Field algorithm,长短期记忆网络-条件随机场算法)模型等。
对所述信息识别模型的训练过程可以为:首先采集样本语料,如“我要听刘德华的忘情水”,“最近有什么好听的歌曲”,“好烦,听首歌”,这些样本语料可以有多处来源,如定义产品功能的假设用户数据、用于系统做单元或系统测试的模拟测试数据以及真实的用户数据;然后采用人工标注方法获取所述样本语料中的第三实体关键字;再创建信息识别模型,基于所述样本语料以及所述第三实体关键字对所述信息识别模型进行训练,即将所述样本语料以及所述第三实体关键字作为所述信息识别模型的输入,并获取所述信息识别模型输出的目标实体识别信息,检测所述目标实体识别信息是否与所述第三实体关键字相匹配,在所述目标实体识别信息与所述第三实体关键字不匹配时,基于词性属性信息对所述信息识别模型进行调整处理,并在调整处理后再次将所述样本语料以及所述第三实体关键字作为所述信息识别模型的输入,并继续检测是否匹配,在所述目标实体识别信息与所述第三实体关键字相匹配时,获取所述信息识别模型的识别准确率,当所述识别准确率大于或者等于准确率阈值时,生成训练后的所述信息识别模型。所述词性属性信息指词在语料中的词性,是以语法特征(包括句法功能和形态变化)为主要依据、兼顾词汇意义对词进行划分的结果。可以分为两类共14种词性。一类是实词:名词、动词、形容词、区别词、副词、代词、数词、量词、拟声词、叹词;一类是虚词:介词、连词、助词、语气词。
具体实现中,信息识别设备采用训练完成的信息识别模型对所述实体关键字集合中的各个目标实体关键字进行实体标注处理,获取实体标注结果,如将“我要听刘德华的忘情水”标注处理后得到(“我要听$singer$song”)*singer(刘德华的)*song(忘情水)的标注结果,并获取该实体标注结果对应的标注分值p(label_query)=p(“我要听$singer$song”)*p_singer(刘德华的)*p_song(忘情水)。
S103,基于所述标注分值在所述实体关键字集合中获取所述目标语料对应的第一实体识别信息。
可以理解的是,信息识别设备获取所述实体标注结果中标注分值最高的目标实体标注结果,并在所述实体关键字集合中获取所述目标实体标注结果对应的目标实体关键字,将所述目标实体关键字作为所述目标语料对应的第一实体识别信息。
在本发明实施例中,通过获取针对音乐应用输入的目标语料,并采用实体词典库对目标语料进行匹配处理,以获取目标语料的实体关键字集合,然后采用训练后的信息识别模型对实体关键字集合进行实体标注处理,以获取实体标注结果以及相应的标注分值,再基于标注分值在实体关键字集合中确定目标语料对应的第一实体识别信息。通过结合实体词典库对带有音乐意图的任意形式的目标语料中实体关键字的识别以及信息识别模型对实体关键字的判断,可以准确识别目标语料的信息,提高了无规则音乐语料识别的准确率,可以得到较好的识别结果。
请参见图2,为本发明实施例提供了另一种信息识别方法的流程示意图。如图2所示,本发明实施例的所述方法可以包括以下步骤S201-步骤S209。
S201,获取源数据,采用过滤关键字规则对所述源数据进行筛选处理,以获取目标数据;
可以理解的是,所述源数据是指从原始数据库(如音乐曲库)接收到的结构化数据,对于音乐曲库而言,所述源数据可以包括歌曲名、歌手名、专辑名、播放量、流行度、歧义度等各种信息。其中,歌曲名、歌手名以及专辑名为实体关键字。
所述过滤关键字规则是指滤除播放量为0、长度超过设定长度阈值、无意义专名、全为数字、乱码等标记为valid=0特征的实体关键字。
具体实现中,通过采用过滤关键字规则对所述源数据进行筛选处理,并将筛选处理后的源数据作为目标数据。所述筛选处理的目的是防止噪音数据形成异常点,干扰系统性能。
S202,获取所述目标数据中的第一实体关键字以及所述第一实体关键字的属性信息;
可以理解的是,所述属性信息可以包括歌曲的流行度以及歧义度。
流行度是衡量歌曲流行程度的指标,计算公式为pop(y)=(rwqq+rwwx)/2,其中
Figure BDA0001466524460000121
rwqq和rwwx分别为近期(最近一周)播放量在音乐播放器榜单上的最高占比和全部播放量在榜单上的最高占比。结合时间衰减的新歌流行程度和经典流行度,借鉴心理学遗忘现象的遗忘和记忆加强特征,用取较大函数max,得到近期(近一周)和经典歌曲的流行度,也就是说如果是一首新歌,即使总播放量不高,但近一周播放量较高时也可以认为这首新歌流行度高;如果一首经典歌曲,总播放量很高,则认为流行度也会较高。
歧义度是指实体关键字在一定语境下的一词多义程度,包括在目标类型下的实体关键字(音乐实体关键字)、目标类型以外的其他类型下的实体关键字(非音乐类实体关键字)以及非实体关键字(普通语气词或助词等)三种情况,如歌曲名“听说”,在“电影听说主题曲”中是电影名,为非音乐实体关键字,在“听说最近有首歌很好听”中是非实体关键字。可以通过统计该实体关键字在各类垂直意图(音乐、视频、小说、新闻、闲聊等)类型下的语料中出现次数,按照tf-idf计算得到词语在意图和实体类型上的歧义度wordIntenEntityDisamDegree,如:
wordIntenEntityDisamDegree(“听说”,“音乐”,“歌曲名”)=tf(“听说”,“音乐”,“歌曲名”)*idf(“听说”),其中,tf=听说作为歌曲名在音乐语料中出现的次数,idf=log(N/(df+1)),N表示全部文档数,df表示出现听说的文档数。
所述获取所述目标数据中的第一实体关键字以及所述第一实体关键字的属性信息,可以理解的是,提取过滤后的数据中的实体关键字以及与提取的实体关键字对应的属性信息,并将提取到的实体关键字以及对应的属性信息设定为第一实体关键字以及第一属性信息。
S203,将所述第一实体关键字以及所述第一实体关键字的属性信息保存至实体词典库中;
具体的,所述实体词典库中的第一实体关键字以及所述第一实体关键字的属性信息存储形式可以为(歌曲名、歌手名、专辑名、属性信息)列表形式,也可以为多个子集合形式,如歌曲名集合、歌手名集合、专辑名集合、以及属性信息集合等。
在一种可行的实现方式中,所述将所述第一实体关键字以及所述第一实体关键字的属性信息保存至实体词典库中,包括:
基于所述属性信息的属性优先级对所述第一实体关键字进行分级处理,并在分级处理后的所述第一实体关键字中获取等级最高的第二实体关键字。
可以理解的是,依据属性优先级将所述第一实体关键字分为多个等级,例如,分为5级,分别为0-4级,从0到4分别表示不同的歧义度和流行度,0表示歧义度大或流行度低,4表示歧义度低且流行度高,也就是4对应的属性优先级最高,0对应的属性优先级最低,然后将其中0-3级的第二实体关键字滤除。也就是说,在实体词典库中只存储有第4级的实体关键字。
S204,采集样本语料,获取所述样本语料中的第三实体关键字;
可以理解的是,所述语料,是指在统计自然语言处理中实际上不可能观测到的大规模的语言实例,包括文本以及文本的上下文关系。一个文本集合称为一个语料库,多个这样的文本集合,则称为语料库集合。在本发明实施例中,所述样本语料即为用户所采集的用于训练的与音乐关联的语料,如“我要听刘德华的忘情水”,“最近有什么好听的歌曲”,“好烦,听首歌”,这些样本语料可以有多处来源,如定义产品功能的假设用户数据、用于系统做单元或系统测试的模拟测试数据以及真实的用户数据。需要说明的是,由于语料的数据量庞大以及无规则性,部分语料无法被准确识别,因此,需要对采集的样本语料进行人工筛选。即,通过人工标注工具标注样本语料中的实体关键字及相关信息,然后将标注结果与设定结果进行比对,从而得到人工标注质量分=正确标注数据/命中标注数据数目,当质量分达到设定的质量分阈值时,确定样本语料是可以准确识别的。若质量分未达到设定的质量分阈值时,表明该语料识别准确率低,则可排除该类语料,然后再基于词性属性信息抽取采集到的样本语料的第三实体关键字。
例如,样本语料为“我想听薛之谦的我害怕”,采用如图3所示的人工标注工具(众测平台)标注样本语料中的点歌意图“node_name”,各实体信息“slot”等,然后比对标注结果与设定结果,从而得到人工标注质量分,当质量分达到设定的质量分阈值时,确定样本语料“我想听薛之谦的我害怕”是可以准确识别的。进一步的,可采用多人对同一语料进行标注,在未标注数据上,当多人标注一致度未到达一致度阈值时,说明这类语料不能准确识别,则排除这类语料。在实际试验中,一致度阈值为86%,质量分阈值为90%。
S205,创建信息识别模型,基于所述样本语料以及所述第三实体关键字对所述信息识别模型进行训练;
可以理解的是,所述信息识别模型可以为线性链条件随机场模型、LSTM-CRF模型等。
具体实现中,创建信息识别模型,将所述样本语料以及所述第三实体关键字作为所述信息识别模型的输入,并获取所述信息识别模型的识别准确率,当所述识别准确率大于或者等于准确率阈值时,生成训练后的所述信息识别模型。
进一步的,如图4所示,所述将所述样本语料以及所述第三实体关键字作为所述信息识别模型的输入,并获取所述信息识别模型的识别准确率,包括以下步骤:
S301,将所述样本语料以及所述第三实体关键字作为所述信息识别模型的输入,并获取所述信息识别模型输出的目标实体识别信息;
S302,检测所述目标实体识别信息是否与所述第三实体关键字相匹配;
具体实现中,将信息识别模型的输出结果与输入的第三实体关键字进行比对,若比对结果一致或在误差范围内,则确定目标实体识别信息与第三实体关键字相匹配,否则,不匹配。
在一种可行的实现方式中,通过采取多折交叉验证(如五折交叉验证,即将完整数据随机划分为5份,每次用4份作为训练数据,1份作为测试数据)对输入的语料进行训练,经过多次验证后,取多次验证的平均值作为输出数据,若输出数据与标注数据不同而产生差异集合,表明所述目标实体识别信息与所述第三实体关键字不匹配,如“我要听刘德华的忘情水”标注结果为:歌曲名=忘情水##歌手名=刘德华”,而信息识别模型的识别结果为:歌手名=刘德华的##歌曲名=忘情水,则说明目标实体识别信息与所述第三实体关键字不匹配。
其中,差异集合的产生通常包括两种情况,第一种情况是人工标注质量中有部分标注错误数据,第二种情况是信息识别模型的误判。而对于第一种情况,可继续训练人工标注结果,从而提升标注质量,但通常在人工标注质量分达到质量分阈值时,认为人工标注准确,也就是不考虑第一种差异产生情况。对于第二种情况,则可对信息识别模型进行调整处理,如借助RNNLM语言模型(ngram模型和embedding模型)在实体关键字边界处进行优化,这是因为viterbi解码阶段不可见序列的预测只可见前一个label,见不到较远的label,多元语言模型可以将label距离扩展到前后3-5个窗口,可观测距离的增加能够帮助提升识别准确率。
S303,在所述目标实体识别信息与所述第三实体关键字不匹配时,基于词性属性信息对所述信息识别模型进行调整处理,并在调整处理后执行将所述样本语料以及所述第三实体关键字作为所述信息识别模型的输入的步骤;
可以理解的是,所述词性属性信息指词在语料中的词性,是以语法特征(包括句法功能和形态变化)为主要依据、兼顾词汇意义对词进行划分的结果。可以分为两类共14种词性。一类是实词:名词、动词、形容词、区别词、副词、代词、数词、量词、拟声词、叹词;一类是虚词:介词、连词、助词、语气词。
具体实现中,当确定目标实体识别信息与所述第三实体关键字不匹配,则依据词性属性信息对信息识别模型进行调整处理,然后再采用调整后的信息识别模型输出目标实体识别信息并验证,直到目标实体识别信息与所述第三实体关键字相匹配,也就是直到识别准确率大于或者等于准确率阈值时,训练结束,否则继续调整。
S304,在所述目标实体识别信息与所述第三实体关键字相匹配时,获取所述信息识别模型的识别准确率。
具体实现中,当确定目标实体识别信息与第三实体关键字相匹配,获取信息识别模型的识别准确率,直到识别准确率大于或者等于准确率阈值时,训练结束,若识别准确率小于准确率阈值,表明模型的性能不够稳定,还需继续训练。
S206,获取针对音乐应用输入的目标语料,采用实体词典库对所述目标语料进行匹配处理,以获取所述目标语料的实体关键字集合;
可以理解的是,所述目标语料即为用户针对音乐应用输入用于识别的语料,如在音乐播放器的搜索项中输入的语料,所述输入的方式可以为文本输入,也可以为语音输入,还可以为手势动作输入等。
在一种可行的实现方式中,若所述实体词典库中存储的是过滤后的第一实体关键字以及第一实体关键字的属性信息,则可在第一实体关键字中匹配出实体关键字集合,所述实体关键字集合中包括至少一组实体关键字。优选的,为了匹配高效,可采用DAT进行匹配。所述DAT是Trie树的一种变形,它是在保证TRIE树检索速度的前提下,提高空间利用率而提出的一种数据结构,本质上是一个确定DFA。所谓的DFA就是一个能实现状态转移的自动机。对于一个给定的属于该自动机的状态和一个属于该自动机字母表Σ的字符,它都能根据事先给定的转移函数转移到下一个状态。对于DAT,每个节点代表自动机的一个状态,根据变量的不同,进行状态转移,当到达结束状态或者无法转移的时候,完成查询。
例如,目标语料为“我想听刘德华的忘情水”,则通过匹配后的目标实体关键字可能包括多组,如“我想、刘德华、忘、情水”、“想听、刘德华、忘”、“刘德华、忘情水”等等。
在另一种可行的实现方式中,若所述实体词典库中存储的是分级处理后的第一实体关键字或只存储了属性优先级最高的第二实体关键字,则只在属性优先级最高的第二实体关键字中匹配出目标实体关键字。这种匹配方式计算量小,效率更高,准确性也更大。
S207,采用训练后的信息识别模型对所述实体关键字集合进行实体标注处理,以获取所述目标语料对应的实体标注结果以及所述实体标注结果对应的标注分值;
例如,以“我要听刘德华的忘情水”为例,若识别到的实体关键字包括5种可能候选结果,“刘德华的、忘情水”、“刘德华、忘情水”、“刘德华的忘、情水”、“德华、忘情水”以及“听刘德华的、忘情水”,采用ngram和rnnlm差值的语言模型,对这5种结果进行标注打分:
p1(label_query)=p(“我要听$singer$song”)*p_singer(刘德华的)*p_song(忘情水);
p2(label_query)=p(“我要听$singe的$song”)*p_singer(刘德华)*p_song(忘情水);
p3(label_query)=p(“我要听$singer情水”)*p_singer(刘德华的忘)*p_song(情水);
p4(label_query)=p(“我要听刘$singer的$song”)*p_singer(德华)*p_song(忘情水);
p5(label_query)=p(“我要$singer$song”)*p_singer(听刘德华的)*p_song(忘情水)。
S208,基于所述标注分值在所述实体关键字集合中获取所述目标语料对应的第一实体识别信息。
在一种具体的实现方式中,获取所述实体标注结果中标注分值最高的目标实体标注结果,然后在所述实体关键字集合中获取所述目标实体标注结果对应的目标实体关键字,将所述目标实体关键字作为所述目标语料对应的第一实体识别信息。
例如,在上述标注打分结果中,若p2(label_query)=p(“我要听$singer的$song”)*p_singer(刘德华)*p_song(忘情水)的标注分值最高,则将p2(label_query)=p(“我要听$singer的$song”)*p_singer(刘德华)*p_song(忘情水)对应的“刘德华、忘情水”作为第一实体识别信息。
S209,采用所述第一实体识别信息在歌曲数据库中进行搜索处理,以获取与所述目标语料相关联的音乐信息。
可以理解的是,信息识别设备在歌曲数据库中进行搜索验证,若只有一个搜索结果,则将该搜索结果作为与目标语料相关联的搜索信息,若有多个搜索结果,则可按照匹配度和播放量的高低顺序排序显示,将显示的结果作为与目标语料相关联的搜索信息,或将匹配度和播放量排序最高的显示结果作为与目标语料相关联的搜索信息,或将用户在显示的多个搜索结构中所选择的搜索结果作为与目标语料相关联的音乐信息等,此处不作具体限定。
例如,第一实体识别信息为“刘德华、忘情水”,则在音乐曲库中基于该第一实体识别信息进行搜索,从而得到图5所示的搜索数据。
可选的,在对第一实体识别信息进行搜索前,对实体第一识别信息进行归一处理,如将“华仔”归一到“刘德华”。
在本发明实施例中,通过获取针对音乐应用输入的目标语料,并采用实体词典库对目标语料进行匹配处理,以获取目标语料的实体关键字集合,然后采用训练后的信息识别模型对实体关键字集合进行实体标注处理,以获取实体标注结果以及相应的标注分值,再基于标注分值在实体关键字集合中确定目标语料对应的第一实体识别信息,再采用第一识别信息在歌曲数据库中进行搜索处理,从而得到与目标语料相关联的音乐信息。通过结合实体词典库对带有音乐意图的任意形式的目标语料中实体关键字的识别以及信息识别模型对实体关键字的判断,可以准确识别目标语料的信息,并展示相关的搜索数据,提高了无规则音乐语料识别的准确率,可以得到较好的识别结果。
请参见图6,为本发明实施例提供了另一种信息识别方法的流程示意图。如图6所示,本发明实施例的所述方法可以包括以下步骤S401-步骤S410。
S401,获取源数据,采用过滤关键字规则对所述源数据进行筛选处理,以获取目标数据;
S402,获取所述目标数据中的第一实体关键字以及所述第一实体关键字的属性信息;
S403,将所述第一实体关键字以及所述第一实体关键字的属性信息保存至实体词典库中;
S404,采集样本语料,获取所述样本语料中的第三实体关键字;
S405,创建信息识别模型,基于所述样本语料以及所述第三实体关键字对所述信息识别模型进行训练;
S406,获取针对音乐应用输入的目标语料,采用训练后的信息纠错模型并基于所述目标语料获取所述目标语料对应的第二实体识别信息;
可以理解的是,所述信息纠错模型用于对用户在检索引擎中输入的查询信息进行分析改写,以获取用户查询需求,帮助用户找到合适的查询结果。在本发明实施例中,通过使用纠错技术在语音识别误差、记忆误差、省略等情况下帮助用户找到正确的实体。由于信息识别模型对不符合语言习惯的语料以及不在实体词典库中的实体关键字无法识别,因此基于信息纠错模型可以弥补信息识别模型未覆盖的范围,在实际使用评估中可以提高2%的召回率。所述信息纠错模型可以为信道噪声模型-隐马尔科夫模型。所述信道噪声模型-隐马尔科夫模型,是一种基于概率的统计分析模型,用来描述一个系统隐性状态的转移和隐性状态的表现概率。
进一步的,如图7所示,所述采用训练后的信息纠错模型并基于所述目标语料获取所述目标语料对应的第二实体识别信息,包括:
S501,采用训练后的信息纠错模型对所述目标语料进行字段调整处理,并获取字段调整处理后所述目标语料的置信度;
可以理解的是,所述字段调整处理即对实体关键字的纠错改写处理。信息纠错模型中存储有纠错词典库,可以包括:对实体词典库中无歧义、汉字长度超过设定长度阈值的实体关键字生成纠错拼音实体关键字词典;对实体词典库中无歧义、汉字长度超过设定长度阈值的实体关键字生成模糊音实体关键字词典,这是因为在以语音形式输入时,因各地口音不同或发音习惯不同等因素,经常会出现同一歌曲名有不同的发音习惯,如“我要听忘情水”输入为“我要听忘青水”,因此需要挖掘模糊音实体关键字词典。常见的两种挖掘模糊音实体关键字词典的方法包括常用语音模糊音建立模糊音实体关键字词典以及挖掘用户点击日志二部图,收集异形拼音编辑距离在3以内的高频实体关键字。所述编辑距离是衡量两字符串间的差异,用使用增、删、改等预定于原操作集合代表操作单位,从一个字符串变化到另一个字符串的最少操作步骤,例如,增加一个字符,编辑距离为1;对实体词典库中无歧义流行度高的实体关键字生成高频改写实体关键字词典。需要说明的是,在实际试验中,80%情况下错误实体关键字与改写实体关键字编辑距离是1,99%情况下错误实体关键字与改写实体关键字编辑距离在2以内,因此可保留编辑距离在2以内的改写实体关键字。
所述置信度又称显著性水平、意义阶段、信任系数等,在统计学上,是指估计一个概率样本的总体参数落在某一区间内的真实概率。在本发明实施例中,可理解为将目标语料中识别出的错误实体关键字e改写为改写实体关键字f的概率,可采用贝叶斯算法、GIZA++、MOSES等方法进行训练计算,定义为将e改写成f的概率p(f|e),其公式如下,其中i表示e中每一个字符的位置,j表示f中每一个字符的位置:
Figure BDA0001466524460000191
具体实现中,通过信息纠错模型对目标语料中的实体关键字进行纠错改写处理,并采用上述公式计算纠错改写处理后的改写概率值,并将该改写概率值作为字段调整处理后的目标语料的置信度。若纠错改写处理后有多个改写结果,则分别计算每个改写结果的置信度。
例如,如图8所示,通过上述信息纠错模型的纠错改写,可将其中的实体关键字“火星来过”改写为“火星人来过”,则采用上述公式计算将“火星来过”改写为“火星人来过”的概率值,计算结果即为置信度。
S502,在所述置信度大于调整置信度阈值时,识别所述字段调整处理后的目标语料的第二实体识别信息。
具体实现中,当纠错改写后的置信度大于调整置信度阈值时,说明纠错改写结果可信度高,改写正确,然后再识别纠错改写后的目标语料的第二实体识别信息。若纠错改写后的置信度小于调整置信度阈值时,说明纠错改写结果不可信,改写错误,可重新改写为其它结果后再计算改写的置信度。若在改写的多个结果中,多个置信度都大于调整置信度阈值,则取置信度最高的改写结果作为纠错改写结果。
例如,将“火星来过”改写后,改写结果包括“火星人来过”、“火星来了”、“火星人”,这3个改写结果对应的置信度分别为p1、p2和p3,若调整置信度阈值为p0,且p1>p2>p0>p3,则取p1对应的“火星人来过”作为改写结果,并重新识别“火星人来过”的第二实体识别信息。
S407,采用实体词典库对所述目标语料进行匹配处理,以获取所述目标语料的实体关键字集合;
S408,采用训练后的信息识别模型对所述实体关键字集合进行实体标注处理,以获取所述目标语料对应的实体标注结果以及所述实体标注结果对应的标注分值;
S409,基于所述标注分值在所述实体关键字集合中获取所述目标语料对应的第一实体识别信息;
S410,采用所述第一实体识别信息以及所述第二实体识别信息在歌曲数据库中进行搜索处理,以获取与所述目标语料相关联的音乐信息。
可以理解的是,信息识别设备在歌曲数据库中分别基于第一实体识别信息和第二实体识别信息进行搜索验证,然后将搜索到的结果进行合并,或者将第一实体识别信息以及第二实体识别信息进行合并,然后在歌曲数据库中基于合并后的第一实体识别信息和第二实体识别信息进行搜索验证,从而得到与所述目标语料相关联的音乐信息。
需要说明的是,本发明实施例的步骤S401-S405、S407-S409可以分别参见图2所示实施例的步骤S201-S205、S206-S208。
在本发明实施例中,通过获取针对音乐应用输入的目标语料,采用实体词典库对目标语料进行匹配处理,以获取目标语料的目标实体关键字,然后采用训练后的信息识别模型对实体关键字集合进行实体标注处理,以获取实体标注结果以及相应的标注分值,再基于标注分值在实体关键字集合中确定目标语料对应的第一实体识别信息,同时采用信息纠错模型对目标语料进行纠错改写处理以及对纠错改写后的目标语料进行识别,以得到第二实体识别信息,再采用第一实体识别信息和第二实体识别信息在歌曲数据库中进行搜索处理,从而得到与目标语料相关联的音乐信息。通过结合实体词典库对带有音乐意图的任意形式的目标语料中实体关键字的识别以及信息识别模型对实体关键字的判断,可以准确识别目标语料的信息,并展示相关的搜索数据,提高了无规则音乐语料识别的准确率;通过信息纠错模型对实体词典库无法识别的实体关键字进行改写及识别,提高了无规则音乐语料识别的召回率。
下面将结合附图9-附图12,对本发明实施例提供的信息识别设备进行详细介绍。需要说明的是,附图9所示的信息识别设备,用于执行本发明图1-图8所示实施例的方法,为了便于说明,仅示出了与本发明实施例相关的部分,具体技术细节未揭示的,请参照本发明图1-图8所示的实施例。
请参见图9,为本发明实施例提供了一种信息识别设备的结构示意图。如图9所示,本发明实施例的所述信息识别设备10可以包括:集合获取单元101、分值标注单元102和第一识别单元103。
集合获取单元101,用于获取针对音乐应用输入的目标语料,采用实体词典库对所述目标语料进行匹配处理,以获取所述目标语料的实体关键字集合;
可以理解的是,所述语料是指在统计自然语言处理中实际上不可能观测到的大规模的语言实例,包括文本以及文本的上下文关系。一个文本集合称为一个语料库,多个这样的文本集合,则称为语料库集合。在本发明实施例中,所述目标语料即为用户针对音乐应用输入的用于识别的语料,可以为在音乐应用的搜索栏中输入的相关语料,如“我想听张学友的歌”、“好烦,听首歌”。所述输入的方式可以为文本输入,也可以为语音输入,还可以为手势动作输入等。
所述实体词典库是指从原始数据库(如音乐曲库)接收到的结构化数据(源数据),对于音乐曲库而言,所述源数据可以包括歌曲名、歌手名、专辑名、播放量、流行度、歧义度等各种信息。其中,歌曲名、歌手名以及专辑名为实体关键字。可选的,所述实体词典库中的信息存储形式可以为(歌曲名、歌手名、专辑名、播放量)的列表形式,也可以多个子集合形式,如歌曲名集合,歌手名集合,专辑名集合等。
可选的,可对源数据进行筛选处理,如采用过滤关键字规则对所述源数据进行筛选处理,以滤除播放量为0、长度过长、无意义专名、全为数字、乱码等特征(标记为valid=0)的实体关键字,从而获取目标数据,所述目标数据包括第一实体关键字以及第一实体关键字的属性信息。所述筛选处理的目的是防止噪音数据形成异常点,干扰系统性能。
具体的,所述属性信息可以包括歌曲的流行度以及歧义度。流行度是衡量歌曲流行程度的指标,计算公式为pop(y)=(rwqq+rwwx)/2,其中
Figure BDA0001466524460000221
rwqq和rwwx分别为近期(最近一周)播放量在音乐播放器榜单上的最高占比和全部播放量在榜单上的最高占比。结合时间衰减的新歌流行程度和经典流行度,借鉴心理学遗忘现象的遗忘和记忆加强特征,用取较大函数max,得到近期(近一周)和经典歌曲的流行度,也就是说如果是一首新歌,即使总播放量不高,但近一周播放量较高时也可以认为这首新歌流行度高;如果一首经典歌曲,总播放量很高,则认为流行度也会较高。歧义度是指实体关键字在一定语境下的一词多义程度,包括在目标类型下的实体关键字(音乐实体关键字)、目标类型以外的其他类型下的实体关键字(非音乐类实体关键字)以及非实体关键字(普通语气词或助词等)三种情况,如歌曲名“听说”,在“电影听说主题曲”中是电影名,为非音乐实体关键字,在“听说最近有首歌很好听”中是非实体关键字。可以通过统计该实体关键字在各类垂直意图(音乐、视频、小说、新闻、闲聊等)类型下的语料中出现次数,按照tf-idf计算得到词语在意图和实体类型上的歧义度wordIntenEntityDisamDegree,如:
wordIntenEntityDisamDegree(“听说”,“音乐”,“歌曲名”)=tf(“听说”,“音乐”,“歌曲名”)*idf(“听说”),其中,tf=听说作为歌曲名在音乐语料中出现的次数,idf=log(N/(df+1)),N表示全部文档数,df表示出现听说的文档数。
进一步的,可基于第一实体关键字的属性信息的属性优先级对第一实体关键字进行分级处理,从而可以得到不同等级的第一实体关键字,并在分级处理后的第一实体关键字中获取等级最高的第二实体关键字。所述等级最高表示歧义度低且流行度高,相应的,等级最低表示歧义度大或流行度低。
具体实现中,当集合获取单元101检测到用户针对音乐应用输入的目标语料时,将该目标语料与实体词典库中的第一实体关键字进行匹配,所述匹配方式可以为与实体词典库中的各个实体子集合分别进行匹配,也可以为与实体词典库中的实体列表中的每列实体关键字分别进行匹配,从而得到实体关键字集合。所述实体关键字集合中的实体关键字可以为一组,也可以为多组。
可选的,为了匹配高效,可采用DAT进行匹配。DAT是TRIE树的一种变形,它是在保证TRIE树检索速度的前提下,提高空间利用率而提出的一种数据结构,本质上是一个确定DFA。所谓的DFA就是一个能实现状态转移的自动机。对于一个给定的属于该自动机的状态和一个属于该自动机字母表Σ的字符,它都能根据事先给定的转移函数转移到下一个状态。对于DAT,每个节点代表自动机的一个状态,根据变量的不同,进行状态转移,当到达结束状态或者无法转移的时候,完成查询。
需要说明的是,在对目标语料进行实体识别前,首先识别该目标语料的意图,如是否为点歌意图,若是,则进行实体识别,否则,滤除这类语料。
可选的,在所输入的目标语料无法准确完整识别时,可采用信息纠错模型对目标语料中的实体关键字进行字段调整处理、字段纠错改写处理等。所述信息纠错模型用于对用户在检索引擎中输入的查询信息进行分析改写,以获取用户查询需求,帮助用户找到合适的查询结果。在本发明实施例中,通过使用纠错技术在语音识别误差、记忆误差、省略等情况下帮助用户找到正确的实体。由于信息识别模型对不符合语言习惯的语料以及不在实体词典库中的实体关键字无法识别,因此基于信息纠错模型可以弥补信息识别模型未覆盖的范围,在实际使用评估中可以提高2%的召回率。所述信息纠错模型可以为信道噪声模型-隐马尔科夫模型。所述信道噪声模型-隐马尔科夫模型,是一种基于概率的统计分析模型,用来描述一个系统隐性状态的转移和隐性状态的表现概率。
分值标注单元102,用于采用训练后的信息识别模型对所述实体关键字集合进行实体标注处理,以获取所述目标语料对应的实体标注结果以及所述实体标注结果对应的标注分值;
可以理解的是,所述信息识别模型可以为线性链条件随机场模型、LSTM-CRF模型等。
对所述信息识别模型的训练过程可以为:首先采集样本语料,如“我要听刘德华的忘情水”,“最近有什么好听的歌曲”,“好烦,听首歌”,这些样本语料可以有多处来源,如定义产品功能的假设用户数据、用于系统做单元或系统测试的模拟测试数据以及真实的用户数据;然后采用人工标注方法获取所述样本语料中的第三实体关键字;再创建信息识别模型,基于所述样本语料以及所述第三实体关键字对所述信息识别模型进行训练,即将所述样本语料以及所述第三实体关键字作为所述信息识别模型的输入,并获取所述信息识别模型输出的目标实体识别信息,检测所述目标实体识别信息是否与所述第三实体关键字相匹配,在所述目标实体识别信息与所述第三实体关键字不匹配时,基于词性属性信息对所述信息识别模型进行调整处理,并在调整处理后再次将所述样本语料以及所述第三实体关键字作为所述信息识别模型的输入,并继续检测是否匹配,在所述目标实体识别信息与所述第三实体关键字相匹配时,获取所述信息识别模型的识别准确率,当所述识别准确率大于或者等于准确率阈值时,生成训练后的所述信息识别模型。所述词性属性信息指词在语料中的词性,是以语法特征(包括句法功能和形态变化)为主要依据、兼顾词汇意义对词进行划分的结果。可以分为两类共14种词性。一类是实词:名词、动词、形容词、区别词、副词、代词、数词、量词、拟声词、叹词;一类是虚词:介词、连词、助词、语气词。
具体实现中,分值标注单元102采用训练完成的信息识别模型对所述实体关键字集合中的各个目标实体关键字进行实体标注处理,获取实体标注结果,如将“我要听刘德华的忘情水”标注处理后得到(“我要听$singer$song”)*singer(刘德华的)*song(忘情水)的标注结果,并获取该实体标注结果对应的标注分值p(label_query)=p(“我要听$singer$song”)*p_singer(刘德华的)*p_song(忘情水)。
第一识别单元103,用于基于所述标注分值在所述实体标注结果中获取所述目标语料对应的第一实体识别信息。
可以理解的是,第一识别单元103获取所述实体标注结果中标注分值最高的目标实体标注结果,并在所述实体关键字集合中获取所述目标实体标注结果对应的目标实体关键字,将所述目标实体关键字作为所述目标语料对应的第一实体识别信息。
在本发明实施例中,通过获取针对音乐应用输入的目标语料,并采用实体词典库对目标语料进行匹配处理,以获取目标语料的实体关键字集合,然后采用训练后的信息识别模型对实体关键字集合进行实体标注处理,以获取实体标注结果以及相应的标注分值,再基于标注分值在实体关键字集合中确定目标语料对应的第一实体识别信息,再采用第一识别信息在歌曲数据库中进行搜索处理,从而得到与目标语料相关联的音乐信息。通过结合实体词典库对带有音乐意图的任意形式的目标语料中实体关键字的识别以及信息识别模型对实体关键字的判断,可以准确识别目标语料的信息,并展示相关的搜索数据,提高了无规则音乐语料识别的准确率,可以得到较好的识别结果。
请参见图10,为本发明实施例提供了另一种信息识别设备的结构示意图。如图10所示,本发明实施例的所述信息识别设备10可以包括:集合获取单元101、分值标注单元102、第一识别单元103、目标数据获取单元104、属性信息获取单元105、关键字保存单元106、关键字采集单元107、模型训练单元108、第二识别0单元109和信息搜索获取单元120。
目标数据获取单元104,用于获取源数据,采用过滤关键字规则对所述源数据进行筛选处理,以获取目标数据;
可以理解的是,所述源数据是指从原始数据库(如音乐曲库)接收到的结构化数据,对于音乐曲库而言,所述源数据可以包括歌曲名、歌手名、专辑名、播放量、流行度、歧义度等各种信息。其中,歌曲名、歌手名以及专辑名为实体关键字。
所述过滤关键字规则是指滤除播放量为0、长度超过设定长度阈值、无意义专名、全为数字、乱码等标记为valid=0特征的实体关键字。
具体实现中,目标数据获取单元104通过采用过滤关键字规则对所述源数据进行筛选处理,并将筛选处理后的源数据作为目标数据。所述筛选处理的目的是防止噪音数据形成异常点,干扰系统性能。
属性信息获取单元105,用于获取所述目标数据中的第一实体关键字以及所述第一实体关键字的属性信息;
可以理解的是,所述属性信息可以包括歌曲的流行度以及歧义度。
流行度是衡量歌曲流行程度的指标,计算公式为pop(y)=(rwqq+rwwx)/2,其中
Figure BDA0001466524460000261
rwqq和 rwwx分别为近期(最近一周)播放量在音乐播放器榜单上的最高占比和全部播放量在榜单上 的最高占比。结合时间衰减的新歌流行程度和经典流行度,借鉴心理学遗忘现象的遗忘和 记忆加强特征,用取较大函数max,得到近期(近一周)和经典歌曲的流行度,也就是说如果 是一首新歌,即使总播放量不高,但近一周播放量较高时也可以认为这首新歌流行度高;如 果一首经典歌曲,总播放量很高,则认为流行度也会较高。
歧义度是指实体关键字在一定语境下的一词多义程度,包括在目标类型下的实体关键字(音乐实体关键字)、目标类型以外的其他类型下的实体关键字(非音乐类实体关键字)以及非实体关键字(普通语气词或助词等)三种情况,如歌曲名“听说”,在“电影听说主题曲”中是电影名,为非音乐实体关键字,在“听说最近有首歌很好听”中是非实体关键字。可以通过统计该实体关键字在各类垂直意图(音乐、视频、小说、新闻、闲聊等)类型下的语料中出现次数,按照tf-idf计算得到词语在意图和实体类型上的歧义度wordIntenEntityDisamDegree,如:
wordIntenEntityDisamDegree(“听说”,“音乐”,“歌曲名”)=tf(“听说”,“音乐”,“歌曲名”)*idf(“听说”),其中,tf=听说作为歌曲名在音乐语料中出现的次数,idf=log(N/(df+1)),N表示全部文档数,df表示出现听说的文档数。
所述获取所述目标数据中的第一实体关键字以及所述第一实体关键字的属性信息,可以理解的是,属性信息获取单元105提取过滤后的数据中的实体关键字以及与提取的实体关键字对应的属性信息,并将提取到的实体关键字以及对应的属性信息设定为第一实体关键字以及第一属性信息。
关键字保存单元106,用于将所述第一实体关键字以及所述第一实体关键字的属性信息保存至实体词典库中;
具体的,所述实体词典库中的第一实体关键字以及所述第一实体关键字的属性信息存储形式可以为(歌曲名、歌手名、专辑名、属性信息)列表形式,也可以为多个子集合形式,如歌曲名集合、歌手名集合、专辑名集合、以及属性信息集合等。
所述关键字保存单元106具体用于:
基于所述属性信息的属性优先级对所述第一实体关键字进行分级处理,并在分级处理后的所述第一实体关键字中获取等级最高的第二实体关键字。
可以理解的是,所述关键字保存单元16依据属性优先级将所述第一实体关键字分为多个等级,例如,分为5级,分别为0-4级,从0到4分别表示不同的歧义度和流行度,0表示歧义度大或流行度低,4表示歧义度低且流行度高,也就是4对应的属性优先级最高,0对应的属性优先级最低,然后将其中0-3级的第二实体关键字滤除。也就是说,在实体词典库中只存储有第4级的实体关键字。
关键字采集单元107,用于采集样本语料,获取所述样本语料中的第三实体关键字;
可以理解的是,所述语料,是指在统计自然语言处理中实际上不可能观测到的大规模的语言实例,包括文本以及文本的上下文关系。一个文本集合称为一个语料库,多个这样的文本集合,则称为语料库集合。所述样本语料即为用户所采集的用于训练的与音乐关联的语料,如“我要听刘德华的忘情水”,“最近有什么好听的歌曲”,“好烦,听首歌”,这些样本语料可以有多处来源,如定义产品功能的假设用户数据、用于系统做单元或系统测试的模拟测试数据以及真实的用户数据。需要说明的是,由于语料的数据量庞大以及无规则性,部分语料无法被准确识别,因此,需要对采集的样本语料进行人工筛选。即,通过人工标注工具标注样本语料中的实体关键字及相关信息,然后将标注结果与设定结果进行比对,从而得到人工标注质量分=正确标注数据/命中标注数据数目,当质量分达到设定的质量分阈值时,确定样本语料是可以准确识别的。若质量分未达到设定的质量分阈值时,表明该语料识别准确率低,则可排除该类语料,然后再基于词性属性信息抽取采集到的样本语料的第三实体关键字。
例如,样本语料为“我想听薛之谦的我害怕”,采用如图3所示的人工标注工具(众测平台)标注样本语料中的点歌意图“node_name”,各实体信息“slot”等,然后比对标注结果与设定结果,从而得到人工标注质量分,当质量分达到设定的质量分阈值时,确定样本语料“我想听薛之谦的我害怕”是可以准确识别的。进一步的,可采用多人对同一语料进行标注,在未标注数据上,当多人标注一致度未到达一致度阈值时,说明这类语料不能准确识别,则排除这类语料。在实际试验中,一致度阈值为86%,质量分阈值为90%。
模型训练单元108,用于创建信息识别模型,基于所述样本语料以及所述第三实体关键字对所述信息识别模型进行训练。
如图11所示,所述模型训练单元108包括:
准确率获取子单元1081,用于创建信息识别模型,将所述样本语料以及所述第三实体关键字作为所述信息识别模型的输入,并获取所述信息识别模型的识别准确率;
模型生成子单元1082,用于当所述识别准确率大于或者等于准确率阈值时,生成训练后的所述信息识别模型。
所述准确率获取子单元1081具体用于:
将所述样本语料以及所述第三实体关键字作为所述信息识别模型的输入,并获取所述信息识别模型输出的目标实体识别信息;
检测所述目标实体识别信息是否与所述第三实体关键字相匹配;
具体实现中,将信息识别模型的输出结果与输入的第三实体关键字进行比对,若比对结果一致或在误差范围内,则确定目标实体识别信息与第三实体关键字相匹配,否则,不匹配。
在一种可行的实现方式中,通过采取多折交叉验证(如五折交叉验证,即将完整数据随机划分为5份,每次用4份作为训练数据,1份作为测试数据)对输入的语料进行训练,经过多次验证后,取多次验证的平均值作为输出数据,若输出数据与标注数据不同而产生差异集合,表明所述目标实体识别信息与所述第三实体关键字不匹配,如“我要听刘德华的忘情水”标注结果为:歌曲名=忘情水##歌手名=刘德华”,而信息识别模型的识别结果为:歌手名=刘德华的##歌曲名=忘情水,则说明目标实体识别信息与所述第三实体关键字不匹配。
其中,差异集合的产生通常包括两种情况,第一种情况是人工标注质量中有部分标注错误数据,第二种情况是信息识别模型的误判。而对于第一种情况,可继续训练人工标注结果,从而提升标注质量,但通常在人工标注质量分达到质量分阈值时,认为人工标注准确,也就是不考虑第一种差异产生情况。对于第二种情况,则可对信息识别模型进行调整处理,如借助RNNLM语言模型(ngram模型和embedding模型)在实体关键字边界处进行优化,这是因为viterbi解码阶段不可见序列的预测只可见前一个label,见不到较远的label,多元语言模型可以将label距离扩展到前后3-5个窗口,可观测距离的增加能够帮助提升识别准确率。
在所述目标实体识别信息与所述第三实体关键字不匹配时,基于词性属性信息对所述信息识别模型进行调整处理,并在调整处理后执行将所述样本语料以及所述第三实体关键字作为所述信息识别模型的输入的步骤;
可以理解的是,所述词性属性信息指词在语料中的词性,是以语法特征(包括句法功能和形态变化)为主要依据、兼顾词汇意义对词进行划分的结果。可以分为两类共14种词性。一类是实词:名词、动词、形容词、区别词、副词、代词、数词、量词、拟声词、叹词;一类是虚词:介词、连词、助词、语气词。
具体实现中,当准确率获取子单元1081确定目标实体识别信息与所述第三实体关键字不匹配,则依据词性属性信息对信息识别模型进行调整处理,然后再采用调整后的信息识别模型输出目标实体识别信息并验证,直到目标实体识别信息与所述第三实体关键字相匹配,也就是直到识别准确率大于或者等于准确率阈值时,训练结束,否则继续调整。
在所述目标实体识别信息与所述第三实体关键字相匹配时,获取所述信息识别模型的识别准确率。
具体实现中,当准确率获取子单元1081确定目标实体识别信息与第三实体关键字相匹配,获取信息识别模型的识别准确率,直到识别准确率大于或者等于准确率阈值时,训练结束,若识别准确率小于准确率阈值,表明模型的性能不够稳定,还需继续训练。
集合获取单元101,用于获取针对音乐应用输入的目标语料,采用实体词典库对所述目标语料进行匹配处理,以获取所述目标语料的实体关键字集合;
可以理解的是,所述目标语料即为用户针对音乐应用输入用于识别的语料,如在音乐播放器的搜索项中输入的语料,所述输入的方式可以为文本输入,也可以为语音输入,还可以为手势动作输入等。
在一种可行的实现方式中,若所述实体词典库中存储的是过滤后的第一实体关键字以及第一实体关键字的属性信息,则可在第一实体关键字中匹配出实体关键字集合,所述实体关键字集合中包括至少一组实体关键字。
例如,目标语料为“我想听刘德华的忘情水”,则通过匹配后的目标实体关键字可能包括多组,如“我想、刘德华、忘、情水”、“想听、刘德华、忘”、“刘德华、忘情水”等等。
在另一种可行的实现方式中,若所述实体词典库中存储的是分级处理后的第一实体关键字或只存储了属性优先级最高的第二实体关键字,则只在属性优先级最高的第二实体关键字中匹配出目标实体关键字。这种匹配方式计算量小,效率更高,准确性也更大。
优选的,为了匹配高效,可采用DAT进行匹配。所述DAT是Trie树的一种变形,它是在保证TRIE树检索速度的前提下,提高空间利用率而提出的一种数据结构,本质上是一个确定DFA。所谓的DFA就是一个能实现状态转移的自动机。对于一个给定的属于该自动机的状态和一个属于该自动机字母表Σ的字符,它都能根据事先给定的转移函数转移到下一个状态。对于DAT,每个节点代表自动机的一个状态,根据变量的不同,进行状态转移,当到达结束状态或者无法转移的时候,完成查询。
分值标注单元102,用于采用训练后的信息识别模型对所述实体关键字集合进行实体标注处理,以获取所述目标语料对应的实体标注结果以及所述实体标注结果对应的标注分值;
例如,以“我要听刘德华的忘情水”为例,若识别到的实体关键字包括5种可能候选结果,“刘德华的、忘情水”、“刘德华、忘情水”、“刘德华的忘、情水”、“德华、忘情水”以及“听刘德华的、忘情水”,采用ngram和rnnlm差值的语言模型,对这5种结果进行标注打分:
p1(label_query)=p(“我要听$singer$song”)*p_singer(刘德华的)*p_song(忘情水);
p2(label_query)=p(“我要听$singe的$song”)*p_singer(刘德华)*p_song(忘情水);
p3(label_query)=p(“我要听$singer情水”)*p_singer(刘德华的忘)*p_song(情水);
p4(label_query)=p(“我要听刘$singer的$song”)*p_singer(德华)*p_song(忘情水);
p5(label_query)=p(“我要$singer$song”)*p_singer(听刘德华的)*p_song(忘情水)。
第一识别单元103,用于基于所述标注分值在所述实体关键字集合中获取所述目标语料对应的第一实体识别信息;
可选的,如图12所示,第一识别单元103,包括:
目标结果获取子单元1031,用于获取所述实体标注结果中标注分值最高的目标实体标注结果;
第一信息确定子单元1032,用于在所述实体关键字集合中获取所述目标实体标注结果对应的目标实体关键字,将所述目标实体关键字作为所述目标语料对应的第一实体识别信息。
例如,在上述标注打分结果中,若p2(label_query)=p(“我要听$singer的$song”)*p_singer(刘德华)*p_song(忘情水)的标注分值最高,则将p2(label_query)=p(“我要听$singer的$song”)*p_singer(刘德华)*p_song(忘情水)对应的“刘德华、忘情水”作为第一实体识别信息。
信息搜索单元120,用于采用所述第一实体识别信息在歌曲数据库中进行搜索处理,以获取与所述目标语料相关联的音乐信息。
可以理解的是,信息搜索单元120在歌曲数据库中进行搜索验证,若只有一个搜索结果,则将该搜索结果作为与目标语料相关联的搜索信息,若有多个搜索结果,则可按照匹配度和播放量的高低顺序排序显示,将显示的结果作为与目标语料相关联的搜索信息,或将匹配度和播放量排序最高的显示结果作为与目标语料相关联的搜索信息,或将用户在显示的多个搜索结构中所选择的搜索结果作为与目标语料相关联的音乐信息等,此处不作具体限定。
例如,第一实体识别信息为“刘德华、忘情水”,则在音乐曲库中基于该第一实体识别信息进行搜索,从而得到图5所示的搜索数据。
所述设备1还包括:
第二识别单元109,用于采用训练后的信息纠错模型并基于所述目标语料获取所述目标语料对应的第二实体识别信息;
可以理解的是,所述信息纠错模型用于对用户在检索引擎中输入的查询信息进行分析改写,以获取用户查询需求,帮助用户找到合适的查询结果。在本发明实施例中,通过使用纠错技术在语音识别误差、记忆误差、省略等情况下帮助用户找到正确的实体。由于信息识别模型对不符合语言习惯的语料以及不在实体词典库中的实体关键字无法识别,因此基于信息纠错模型可以弥补信息识别模型未覆盖的范围,在实际使用评估中可以提高2%的召回率。所述信息纠错模型可以为信道噪声模型-隐马尔科夫模型。
所述搜索信息单元120具体用于:
采用所述第一实体识别信息以及所述第二实体识别信息在歌曲数据库中进行搜索处理,以获取与所述目标语料相关联的音乐信息。
可以理解的是,搜索信息单元120在数据库(如曲库)中分别基于第一识别信息和第二识别信息进行搜索验证,然后将搜索到的结果进行合并,或者将第一识别信息以及第二识别信息进行合并,然后在数据库(如曲库)中基于合并后的第一识别信息和第二识别信息进行搜索验证,从而得到与所述目标语料相关联的搜索信息。
如图13所示,所述第二识别单元109,包括:
置信度获取子单元1091,用于采用训练后的信息纠错模型对所述目标语料进行字段调整处理,并获取字段调整处理后所述目标语料的置信度;
可以理解的是,所述字段调整处理即对实体关键字的纠错改写处理。信息纠错模型中存储有纠错词典库,可以包括:对实体词典库中无歧义、汉字长度超过设定长度阈值的实体关键字生成纠错拼音实体关键字词典;对实体词典库中无歧义、汉字长度超过设定长度阈值的实体关键字生成模糊音实体关键字词典,这是因为在以语音形式输入时,因各地口音不同或发音习惯不同等因素,经常会出现同一歌曲名有不同的发音习惯,如“我要听忘情水”输入为“我要听忘青水”,因此需要挖掘模糊音实体关键字词典。常见的两种挖掘模糊音实体关键字词典的方法包括常用语音模糊音建立模糊音实体关键字词典以及挖掘用户点击日志二部图,收集异形拼音编辑距离在3以内的高频实体关键字。所述编辑距离是衡量两字符串间的差异,用使用增、删、改等预定于原操作集合代表操作单位,从一个字符串变化到另一个字符串的最少操作步骤,例如,增加一个字符,编辑距离为1;对实体词典库中无歧义流行度高的实体关键字生成高频改写实体关键字词典。需要说明的是,在实际试验中,80%情况下错误实体关键字与改写实体关键字编辑距离是1,99%情况下错误实体关键字与改写实体关键字编辑距离在2以内,因此可保留编辑距离在2以内的改写实体关键字。
所述置信度又称显著性水平、意义阶段、信任系数等,在统计学上,是指估计一个概率样本的总体参数落在某一区间内的真实概率。在本发明实施例中,可理解为将目标语料中识别出的错误实体关键字e改写为改写实体关键字f的概率,可采用贝叶斯算法、GIZA++、MOSES等方法进行训练计算,定义为将e改写成f的概率p(f|e),其公式如下,其中i表示e中每一个字符的位置,j表示f中每一个字符的位置:
Figure BDA0001466524460000331
具体实现中,置信度获取子单元191通过信息纠错模型对目标语料中的实体关键字进行纠错改写处理,并采用上述公式计算纠错改写处理后的改写概率值,并将该改写概率值作为字段调整处理后的目标语料的置信度。若纠错改写处理后有多个改写结果,则分别计算每个改写结果的置信度。
例如,如图9所示,通过上述信息纠错模型的纠错改写,可将实体关键字“火星来过”改写为“火星人来过”,则采用上述公式计算将“火星来过”改写为“火星人来过”的概率值,计算结果即为置信度。
信息识别子单元1092,用于在所述置信度大于调整置信度阈值时,识别所述字段调整处理后的目标语料的第二实体识别信息。
具体实现中,当信息识别子单元1092检测到纠错改写后的置信度大于调整置信度阈值时,说明纠错改写结果可信度高,改写正确,然后再识别纠错改写后的目标语料的第二实体识别信息。若纠错改写后的置信度小于调整置信度阈值时,说明纠错改写结果不可信,改写错误,可重新改写为其它结果后再计算改写的置信度。若在改写的多个结果中,多个置信度都大于调整置信度阈值,则取置信度最高的改写结果作为纠错改写结果。
例如,将“火星来过”改写后,改写结果包括“火星人来过”、“火星来了”、“火星人”,这3个改写结果对应的置信度分别为p1、p2和p3,若调整置信度阈值为p0,且p1>p2>p0>p3,则取p1对应的“火星人来过”作为改写结果,并重新识别“火星人来过”的第二实体识别信息。
在本发明实施例中,通过获取针对音乐应用输入的目标语料,采用实体词典库对目标语料进行匹配处理,以获取目标语料的目标实体关键字,然后采用训练后的信息识别模型对实体关键字集合进行实体标注处理,以获取实体标注结果以及相应的标注分值,再基于标注分值在实体关键字集合中确定目标语料对应的第一实体识别信息,同时采用信息纠错模型对目标语料进行纠错改写处理以及对纠错改写后的目标语料进行识别,以得到第二实体识别信息,再采用第一实体识别信息和第二实体识别信息在歌曲数据库中进行搜索处理,从而得到与目标语料相关联的音乐信息。通过结合实体词典库对带有音乐意图的任意形式的目标语料中实体关键字的识别以及信息识别模型对实体关键字的判断,可以准确识别目标语料的信息,并展示相关的搜索数据,提高了无规则音乐语料识别的准确率;通过信息纠错模型对实体词典库无法识别的实体关键字进行改写及识别,提高了无规则音乐语料识别的召回率。
本发明实施例还提供了一种计算机存储介质,所述计算机存储介质可以存储有多条指令,所述指令适于由处理器加载并执行如上述图1-图8所示实施例的方法步骤,具体执行过程可以参见图1-图8所示实施例的具体说明,在此不进行赘述。
请参见图14,为本发明实施例提供了一种终端的结构示意图。如图14所示,所述终端1000可以包括:至少一个处理器1001,例如CPU,至少一个网络接口1004,用户接口1003,存储器1005,至少一个通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。其中,用户接口1003可以包括显示屏(Display)、键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图14所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及信息识别应用程序。
在图14所示的终端1000中,用户接口1003主要用于为用户提供输入的接口,获取用户输入的数据;网络接口1004主要用于与用户终端进行数据通信;而处理器1001可以用于调用存储器1005中存储的信息识别应用程序,并具体执行以下操作:
获取针对音乐应用输入的目标语料,采用实体词典库对所述目标语料进行匹配处理,以获取所述目标语料的实体关键字集合;
采用训练后的信息识别模型对所述实体关键字集合进行实体标注处理,以获取所述目标语料对应的实体标注结果以及所述实体标注结果对应的标注分值;
基于所述标注分值在所述实体关键字集合中获取所述目标语料对应的第一实体识别信息。
在一个实施例中,所述处理器1001在执行获取针对音乐应用输入的目标语料之前,还执行以下操作:
获取源数据,采用过滤关键字规则对所述源数据进行筛选处理,以获取目标数据;
获取所述目标数据中的第一实体关键字以及所述第一实体关键字的属性信息;
将所述第一实体关键字以及所述第一实体关键字的属性信息保存至实体词典库中;
在一个实施例中,所述处理器1001在执行将所述第一实体关键字以及所述第一实体关键字的属性信息保存至实体词典库中时,具体执行以下操作:
基于所述属性信息的属性优先级对所述第一实体关键字进行分级处理,并在分级处理后的所述第一实体关键字中获取等级最高的第二实体关键字。
在一个实施例中,所述处理器1001在执行获取针对音乐应用输入的目标语料之前,还执行以下操作:
采集样本语料,获取所述样本语料中的第三实体关键字;
创建信息识别模型,基于所述样本语料以及所述第三实体关键字对所述信息识别模型进行训练。
在一个实施例中,所述处理器1001在执行创建信息识别模型,基于所述样本语料以及所述第三实体关键字对所述信息识别模型进行训练时,具体执行以下操作:
创建信息识别模型,将所述样本语料以及所述第三实体关键字作为所述信息识别模型的输入,并获取所述信息识别模型的识别准确率;
当所述识别准确率大于或者等于准确率阈值时,生成训练后的所述信息识别模型。
在一个实施例中,所述处理器1001在执行将所述样本语料以及所述第三实体关键字作为所述信息识别模型的输入,并获取所述信息识别模型的识别准确率时,具体执行以下操作:
将所述样本语料以及所述第三实体关键字作为所述信息识别模型的输入,并获取所述信息识别模型输出的目标实体识别信息;
检测所述目标实体识别信息是否与所述第三实体关键字相匹配;
在所述目标实体识别信息与所述第三实体关键字不匹配时,基于词性属性信息对所述信息识别模型进行调整处理,并在调整处理后执行将所述样本语料以及所述第三实体关键字作为所述信息识别模型的输入的步骤;
在所述目标实体识别信息与所述第三实体关键字相匹配时,获取所述信息识别模型的识别准确率。
在一个实施例中,所述处理器1001在执行基于所述标注分值在所述实体关键字集合中获取所述目标语料对应的第一实体识别信息时,具体执行以下操作:
获取所述实体标注结果中标注分值最高的目标实体标注结果;
在所述实体关键字集合中获取所述目标实体标注结果对应的目标实体关键字,将所述目标实体关键字作为所述目标语料对应的第一实体识别信息。
在一个实施例中,所述处理器1001还执行以下操作:
采用所述第一实体识别信息在歌曲数据库中进行搜索处理,以获取与所述目标语料相关联的音乐信息。
在一个实施例中,所述处理器1001在执行获取针对音乐应用输入的目标语料之后,还执行以下操作:
采用训练后的信息纠错模型并基于所述目标语料获取所述目标语料对应的第二实体识别信息;
所述采用所述第一实体识别信息在歌曲数据库中进行搜索处理,以获取与所述目标语料相关联的音乐信息,包括:
采用所述第一实体识别信息以及所述第二实体识别信息在歌曲数据库中进行搜索处理,以获取与所述目标语料相关联的音乐信息。
在一个实施例中,所述处理器1001在执行采用训练后的信息纠错模型并基于所述目标语料获取所述目标语料对应的第二实体识别信息时,具体执行以下操作:
采用训练后的信息纠错模型对所述目标语料进行字段调整处理,并获取字段调整处理后所述目标语料的置信度;
在所述置信度大于调整置信度阈值时,识别所述字段调整处理后的目标语料的第二实体识别信息。
在本发明实施例中,通过获取针对音乐应用输入的目标语料,采用实体词典库对目标语料进行匹配处理,以获取目标语料的目标实体关键字,然后采用训练后的信息识别模型对实体关键字集合进行实体标注处理,以获取实体标注结果以及相应的标注分值,再基于标注分值在实体关键字集合中确定目标语料对应的第一实体识别信息,同时采用信息纠错模型对目标语料进行纠错改写处理以及对纠错改写后的目标语料进行识别,以得到第二实体识别信息,再采用第一实体识别信息和第二实体识别信息在歌曲数据库中进行搜索处理,从而得到与目标语料相关联的音乐信息。通过结合实体词典库对带有音乐意图的任意形式的目标语料中实体关键字的识别以及信息识别模型对实体关键字的判断,可以准确识别目标语料的信息,并展示相关的搜索数据,提高了无规则音乐语料识别的准确率;通过信息纠错模型对实体词典库无法识别的实体关键字进行改写及识别,提高了无规则音乐语料识别的召回率。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。

Claims (9)

1.一种信息识别方法,其特征在于,包括:
获取源数据,采用过滤关键字规则对所述源数据进行筛选处理,以获取目标数据;
获取所述目标数据中的第一实体关键字以及所述第一实体关键字的属性信息,所述属性信息包括实体关键字的流行度和歧义度,所述流行度为基于实体关键字在近预设时间段的播放量在音乐播放器的榜单上的占比和实体关键字的全部播放量在所述榜单上的占比所得到的,所述歧义度为基于实体关键字在各类垂直意图类型下的语料中的出现次数,所得到的在音乐意图和实体类型上的歧义度;
基于所述流行度和所述歧义度分别对应的属性优先级,对所述第一实体关键字进行分级处理,并在分级处理后的所述第一实体关键字中获取等级最高的第二实体关键字;
将所述第二实体关键字以及所述第二实体关键字的属性信息保存至实体词典库中;
获取针对音乐应用输入的目标语料,采用训练后的信息纠错模型并基于所述目标语料获取所述目标语料对应的第二实体识别信息,所述信息纠错模型中存储有纠错词典库,所述纠错词典库为基于所述实体词典库中无歧义、汉字长度超过设定长度阈值的实体关键字所生成的;
采用实体词典库对所述目标语料进行匹配处理,以获取所述目标语料的实体关键字集合;所述实体关键字集合中包括多组实体关键字;
采用训练后的信息识别模型对所述实体关键字集合中的多组实体关键字分别进行实体标注处理,以获取所述目标语料中多组实体关键字分别对应的实体标注结果、以及多个实体标注结果分别对应的标注分值;
基于所述多个实体标注结果分别对应的标注分值在所述实体关键字集合中获取所述目标语料对应的第一实体识别信息;
采用所述第一实体识别信息以及所述第二实体识别信息在歌曲数据库中进行搜索处理,以获取与所述目标语料相关联的音乐信息。
2.根据权利要求1所述的方法,其特征在于,所述获取针对音乐应用输入的目标语料之前,还包括:
采集样本语料,获取所述样本语料中的第三实体关键字;
创建信息识别模型,基于所述样本语料以及所述第三实体关键字对所述信息识别模型进行训练。
3.根据权利要求2所述的方法,其特征在于,所述创建信息识别模型,基于所述样本语料以及所述第三实体关键字对所述信息识别模型进行训练,包括:
创建信息识别模型,将所述样本语料以及所述第三实体关键字作为所述信息识别模型的输入,并获取所述信息识别模型的识别准确率;
当所述识别准确率大于或者等于准确率阈值时,生成训练后的所述信息识别模型。
4.根据权利要求3所述的方法,其特征在于,所述将所述样本语料以及所述第三实体关键字作为所述信息识别模型的输入,并获取所述信息识别模型的识别准确率,包括:
将所述样本语料以及所述第三实体关键字作为所述信息识别模型的输入,并获取所述信息识别模型输出的目标实体识别信息;
检测所述目标实体识别信息是否与所述第三实体关键字相匹配;
在所述目标实体识别信息与所述第三实体关键字不匹配时,基于词性属性信息对所述信息识别模型进行调整处理,并在调整处理后执行将所述样本语料以及所述第三实体关键字作为所述信息识别模型的输入的步骤;
在所述目标实体识别信息与所述第三实体关键字相匹配时,获取所述信息识别模型的识别准确率。
5.根据权利要求1所述的方法,其特征在于,所述基于所述标注分值在所述实体关键字集合中获取所述目标语料对应的第一实体识别信息,包括:
获取所述实体标注结果中标注分值最高的目标实体标注结果;
在所述实体关键字集合中获取所述目标实体标注结果对应的目标实体关键字,将所述目标实体关键字作为所述目标语料对应的第一实体识别信息。
6.根据权利要求1所述的方法,其特征在于,所述采用训练后的信息纠错模型并基于所述目标语料获取所述目标语料对应的第二实体识别信息,包括:
采用训练后的信息纠错模型对所述目标语料进行字段调整处理,并获取字段调整处理后所述目标语料的置信度;
在所述置信度大于调整置信度阈值时,识别所述字段调整处理后的目标语料的第二实体识别信息。
7.一种信息识别设备,其特征在于,包括:
目标数据获取单元,用于获取源数据,采用过滤关键字规则对所述源数据进行筛选处理,以获取目标数据;
属性信息获取单元,用于获取所述目标数据中的第一实体关键字以及所述第一实体关键字的属性信息,所述属性信息包括实体关键字的流行度和歧义度,所述流行度为基于实体关键字在近预设时间段的播放量在音乐播放器的榜单上的占比和实体关键字的全部播放量在所述榜单上的占比所得到的,所述歧义度为实体关键字在音乐意图和实体类型上的歧义度;
关键字保存单元,用于将所述第一实体关键字以及所述第一实体关键字的属性信息保存至实体词典库中;
集合获取单元,用于获取针对音乐应用输入的目标语料,采用实体词典库对所述目标语料进行匹配处理,以获取所述目标语料的实体关键字集合;所述实体关键字集合中包括多组实体关键字;
分值标注单元,用于采用训练后的信息识别模型对所述实体关键字集合中的多组实体关键字分别进行实体标注处理,以获取所述目标语料中多组实体关键字分别对应的实体标注结果、以及多个实体标注结果分别对应的标注分值;
第一识别单元,用于基于所述多个实体标注结果分别对应的标注分值在所述实体关键字集合中获取所述目标语料对应的第一实体识别信息;
其中,所述关键字保存单元具体用于基于所述流行度和所述歧义度分别对应的属性优先级,对所述第一实体关键字进行分级处理,并在分级处理后的所述第一实体关键字中获取等级最高的第二实体关键字:将所述第二实体关键字以及所述第二实体关键字的属性信息保存至实体词典库中;
所述设备还包括:
第二识别单元,用于采用训练后的信息纠错模型并基于所述目标语料获取所述目标语料对应的第二实体识别信息,所述信息纠错模型中存储有纠错词典库,所述纠错词典库为基于所述实体词典库中无歧义、汉字长度超过设定长度阈值的实体关键字所生成的;
搜索信息单元,用于采用所述第一实体识别信息以及所述第二实体识别信息在歌曲数据库中进行搜索处理,以获取与所述目标语料相关联的音乐信息。
8.一种计算机存储介质,其特征在于,所述计算机存储介质存储有多条指令,所述指令适于由处理器加载并执行以下步骤:
获取源数据,采用过滤关键字规则对所述源数据进行筛选处理,以获取目标数据;
获取所述目标数据中的第一实体关键字以及所述第一实体关键字的属性信息,所述属性信息包括实体关键字的流行度和歧义度,所述流行度为基于实体关键字在近预设时间段的播放量在音乐播放器的榜单上的占比和实体关键字的全部播放量在所述榜单上的占比所得到的,所述歧义度为实体关键字在意图和实体类型上的歧义度;
基于所述流行度和所述歧义度分别对应的属性优先级,对所述第一实体关键字进行分级处理,并在分级处理后的所述第一实体关键字中获取等级最高的第二实体关键字;
将所述第二实体关键字以及所述第二实体关键字的属性信息保存至实体词典库中;
获取针对音乐应用输入的目标语料,采用训练后的信息纠错模型并基于所述目标语料获取所述目标语料对应的第二实体识别信息,所述信息纠错模型中存储有纠错词典库,所述纠错词典库为基于所述实体词典库中无歧义、汉字长度超过设定长度阈值的实体关键字所生成的;
采用实体词典库对所述目标语料进行匹配处理,以获取所述目标语料的实体关键字集合;所述实体关键字集合中包括多组实体关键字;
采用训练后的信息识别模型对所述实体关键字集合中的多组实体关键字分别进行实体标注处理,以获取所述目标语料中多组实体关键字分别对应的实体标注结果、以及多个实体标注结果分别对应的标注分值;
基于所述多个实体标注结果分别对应的标注分值在所述实体关键字集合中获取所述目标语料对应的第一实体识别信息;
采用所述第一实体识别信息以及所述第二实体识别信息在歌曲数据库中进行搜索处理,以获取与所述目标语料相关联的音乐信息。
9.一种终端,其特征在于,包括:处理器和存储器;其中,所述存储器存储有计算机程序,所述计算机程序适于由所述处理器加载并执行以下步骤:
获取源数据,采用过滤关键字规则对所述源数据进行筛选处理,以获取目标数据;
获取所述目标数据中的第一实体关键字以及所述第一实体关键字的属性信息,所述属性信息包括实体关键字的流行度和歧义度,所述流行度为基于实体关键字在近预设时间段的播放量在音乐播放器的榜单上的占比和实体关键字的全部播放量在所述榜单上的占比所得到的,所述歧义度为实体关键字在意图和实体类型上的歧义度;
基于所述流行度和所述歧义度分别对应的属性优先级,对所述第一实体关键字进行分级处理,并在分级处理后的所述第一实体关键字中获取等级最高的第二实体关键字;
将所述第二实体关键字以及所述第二实体关键字的属性信息保存至实体词典库中;
获取针对音乐应用输入的目标语料,采用训练后的信息纠错模型并基于所述目标语料获取所述目标语料对应的第二实体识别信息,所述信息纠错模型中存储有纠错词典库,所述纠错词典库为基于所述实体词典库中无歧义、汉字长度超过设定长度阈值的实体关键字所生成的;
采用实体词典库对所述目标语料进行匹配处理,以获取所述目标语料的实体关键字集合;所述实体关键字集合中包括多组实体关键字;
采用训练后的信息识别模型对所述实体关键字集合中的多组实体关键字分别进行实体标注处理,以获取所述目标语料中多组实体关键字分别对应的实体标注结果、以及多个实体标注结果分别对应的标注分值;
基于所述多个实体标注结果分别对应的标注分值在所述实体关键字集合中获取所述目标语料对应的第一实体识别信息;
采用所述第一实体识别信息以及所述第二实体识别信息在歌曲数据库中进行搜索处理,以获取与所述目标语料相关联的音乐信息。
CN201711116576.4A 2017-11-13 2017-11-13 一种信息识别方法及其设备、存储介质、终端 Active CN108304375B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711116576.4A CN108304375B (zh) 2017-11-13 2017-11-13 一种信息识别方法及其设备、存储介质、终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711116576.4A CN108304375B (zh) 2017-11-13 2017-11-13 一种信息识别方法及其设备、存储介质、终端

Publications (2)

Publication Number Publication Date
CN108304375A CN108304375A (zh) 2018-07-20
CN108304375B true CN108304375B (zh) 2022-01-07

Family

ID=62869606

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711116576.4A Active CN108304375B (zh) 2017-11-13 2017-11-13 一种信息识别方法及其设备、存储介质、终端

Country Status (1)

Country Link
CN (1) CN108304375B (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108922531B (zh) * 2018-07-26 2020-10-27 腾讯科技(北京)有限公司 槽位识别方法、装置、电子设备及存储介质
CN109065045A (zh) * 2018-08-30 2018-12-21 出门问问信息科技有限公司 语音识别方法、装置、电子设备及计算机可读存储介质
CN109408626B (zh) * 2018-11-09 2021-09-21 思必驰科技股份有限公司 对自然语言进行处理的方法及装置
CN111292751B (zh) * 2018-11-21 2023-02-28 北京嘀嘀无限科技发展有限公司 语义解析方法及装置、语音交互方法及装置、电子设备
CN112151019A (zh) * 2019-06-26 2020-12-29 阿里巴巴集团控股有限公司 文本处理方法、装置及计算设备
CN110543555A (zh) * 2019-08-15 2019-12-06 阿里巴巴集团控股有限公司 一种用于智能客服中的标问召回方法和装置
CN112435657B (zh) * 2019-08-26 2023-08-04 深圳市优必选科技股份有限公司 语音识别方法、装置、计算机设备及存储介质
CN110705217B (zh) * 2019-09-09 2023-07-21 上海斑马来拉物流科技有限公司 一种错别字检测方法、装置及计算机存储介质、电子设备
CN110750991B (zh) * 2019-09-18 2022-04-15 平安科技(深圳)有限公司 实体识别方法、装置、设备及计算机可读存储介质
CN111079405A (zh) * 2019-11-29 2020-04-28 微民保险代理有限公司 文本信息识别方法、装置、存储介质和计算机设备
CN111125438B (zh) * 2019-12-25 2023-06-27 北京百度网讯科技有限公司 实体信息提取方法、装置、电子设备及存储介质
CN111651990B (zh) * 2020-04-14 2024-03-15 车智互联(北京)科技有限公司 一种实体识别方法、计算设备及可读存储介质
CN111859965A (zh) * 2020-06-11 2020-10-30 北京三快在线科技有限公司 一种实体识别模型训练方法、实体识别方法及装置
CN112257425A (zh) * 2020-09-29 2021-01-22 国网天津市电力公司 一种基于数据分级模型的电力数据分析方法及系统
CN112580691A (zh) * 2020-11-25 2021-03-30 北京北大千方科技有限公司 一种元数据字段的术语匹配方法、匹配系统和存储介质
CN113468307B (zh) * 2021-06-30 2023-06-30 网易(杭州)网络有限公司 文本处理方法、装置、电子设备及存储介质
CN113723073A (zh) * 2021-07-12 2021-11-30 大箴(杭州)科技有限公司 语料的处理方法及装置、电子设备、存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101206673A (zh) * 2007-12-25 2008-06-25 北京科文书业信息技术有限公司 网络搜索过程中关键词的智能纠错系统及方法
CN102591865A (zh) * 2011-01-06 2012-07-18 北京瑞信在线系统技术有限公司 音乐词汇文件索引建立方法及其装置、音乐词汇搜索方法及其系统
CN103034693A (zh) * 2012-12-03 2013-04-10 哈尔滨工业大学 开放式实体及其类型识别方法
CN103268339A (zh) * 2013-05-17 2013-08-28 中国科学院计算技术研究所 微博消息中命名实体识别方法及系统
CN106294308A (zh) * 2015-05-19 2017-01-04 深圳市腾讯计算机系统有限公司 命名实体识别方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101206673A (zh) * 2007-12-25 2008-06-25 北京科文书业信息技术有限公司 网络搜索过程中关键词的智能纠错系统及方法
CN102591865A (zh) * 2011-01-06 2012-07-18 北京瑞信在线系统技术有限公司 音乐词汇文件索引建立方法及其装置、音乐词汇搜索方法及其系统
CN103034693A (zh) * 2012-12-03 2013-04-10 哈尔滨工业大学 开放式实体及其类型识别方法
CN103268339A (zh) * 2013-05-17 2013-08-28 中国科学院计算技术研究所 微博消息中命名实体识别方法及系统
CN106294308A (zh) * 2015-05-19 2017-01-04 深圳市腾讯计算机系统有限公司 命名实体识别方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
付瑞吉.音乐命名实体识别技术研究.《中国优秀硕士学位论文全文数据库 信息科技辑》.2011,摘要、第三章、第五章. *
音乐命名实体识别技术研究;付瑞吉;《中国优秀硕士学位论文全文数据库 信息科技辑》;20111215;第3章 *

Also Published As

Publication number Publication date
CN108304375A (zh) 2018-07-20

Similar Documents

Publication Publication Date Title
CN108304375B (zh) 一种信息识别方法及其设备、存储介质、终端
CN108647205B (zh) 细粒度情感分析模型构建方法、设备及可读存储介质
CN108304372B (zh) 实体提取方法和装置、计算机设备和存储介质
US7983902B2 (en) Domain dictionary creation by detection of new topic words using divergence value comparison
CN103970798B (zh) 数据的搜索和匹配
CN106570180B (zh) 基于人工智能的语音搜索方法及装置
US20030046078A1 (en) Supervised automatic text generation based on word classes for language modeling
US20130060769A1 (en) System and method for identifying social media interactions
CN112395385B (zh) 基于人工智能的文本生成方法、装置、计算机设备及介质
WO2003010754A1 (fr) Systeme de recherche a entree vocale
CN111291156A (zh) 一种基于知识图谱的问答意图识别方法
CN103678684A (zh) 一种基于导航信息检索的中文分词方法
WO2021189951A1 (zh) 文本搜索方法、装置、计算机设备和存储介质
WO2009026850A1 (en) Domain dictionary creation
CN109271524B (zh) 知识库问答系统中的实体链接方法
WO2008145055A1 (fr) Procédé pour obtenir une information de mot de restriction et pour optimiser le système du procédé d'entrée et de sortie
CN111104803B (zh) 语义理解处理方法、装置、设备及可读存储介质
CN114036930A (zh) 文本纠错方法、装置、设备及计算机可读介质
CN115438166A (zh) 基于关键词和语义的搜索方法、装置、设备及存储介质
CN109508441B (zh) 通过自然语言实现数据统计分析的方法、装置及电子设备
CN109522396B (zh) 一种面向国防科技领域的知识处理方法及系统
US20220365956A1 (en) Method and apparatus for generating patent summary information, and electronic device and medium
CN111160007B (zh) 基于bert语言模型的搜索方法、装置、计算机设备及存储介质
TW201409462A (zh) 語意辨識方法
Van Den Bosch Scalable classification-based word prediction and confusible correction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant