CN106970907A - 一种语义识别方法 - Google Patents

一种语义识别方法 Download PDF

Info

Publication number
CN106970907A
CN106970907A CN201610024359.1A CN201610024359A CN106970907A CN 106970907 A CN106970907 A CN 106970907A CN 201610024359 A CN201610024359 A CN 201610024359A CN 106970907 A CN106970907 A CN 106970907A
Authority
CN
China
Prior art keywords
submodel
relation
semantics
matching result
basic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610024359.1A
Other languages
English (en)
Inventor
祝铭明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yutou Technology Hangzhou Co Ltd
Original Assignee
Yutou Technology Hangzhou Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yutou Technology Hangzhou Co Ltd filed Critical Yutou Technology Hangzhou Co Ltd
Priority to CN201610024359.1A priority Critical patent/CN106970907A/zh
Publication of CN106970907A publication Critical patent/CN106970907A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种语义识别方法,属于语义识别技术领域。方法包括:智能设备接收语音信号并转变为可识别文本;采用密钥对可识别文本进行加密并上传至一服务端;在服务端对可识别文本进行解密并根据解析模板处理,将可识别文本转变为可识别内容;利用语义关系子模型和基本子模型对可识别内容进行精确语义匹配,获取相应的第一匹配结果;服务端将第一匹配结果返回至智能设备,以控制其执行相应指令,或者向使用者提示第一匹配结果。上述技术方案的有益效果是:更有效地对使用者输入的语音指令进行语义识别和推理,得到更精确的识别结果,并且在识别过程中保证了语音数据传输的安全性,提升语音识别的私密性,从而提升使用者的使用体验。

Description

一种语义识别方法
技术领域
本发明涉及语义识别技术领域,尤其涉及一种语义识别方法。
背景技术
现有技术中的语义识别技术可以应用到智能设备尤其是智能机器人中,能够拉近使用者和智能机器人之间的“距离”,使得使用者对智能机器人的控制更便捷,更直接。
但是现有技术中的语义识别技术,其精确度较差,无法准确地识别使用者说话的内容,因此非但无法提升控制的便捷性,反而提高了使用者的控制难度,降低了使用者的使用体验。
发明内容
根据现有技术中存在的上述问题,现提供一种语义识别方法的技术方案,具体包括:
一种语义识别方法,适用于智能设备;其中:利用语义识别模型辅助实现使用者与智能设备之间的人机交互;
所述语义识别模型包括:基本子模型、句型关系子模型、通用子模型常识识别库以及语义关系子模型;
所述基本子模型中包括预先定义的基本概念以及与所述基本概念对应的预先定义的扩展概念;
所述通用子模型包括预先定义的通用概念、对应于所述通用概念的关联领域以及至少一个所述通用概念的关联组合;
所述语义关系子模型包括与所述基本子模型、所述句型关系子模型以及所述通用子模型相关的关系以及模糊语义关系;
所述语音识别方法具体包括:
步骤S1,所述智能设备接收用户输入的语音信号,并利用语音识别技术将所述语音信号转变为可识别文本;
步骤S2,采用预先设置的密钥对所述可识别文本进行加密,并将加密后的所述可识别文本上传至一服务端;
步骤S3,在所述服务端对所述可识别文本进行解密;
步骤S4,于所述服务端中预设对应不同的关键词的解析模板,所述服务端在所述可识别文本中提取多个所述关键词,并分别对照所述解析模板将将所述可识别文本转变为可进行语义识别的可识别内容;
步骤S5,利用所述语义关系子模型和所述基本子模型对所述可识别内容进行精确语义匹配,获取相应的第一匹配结果;
步骤S6,所述服务端将所述第一匹配结果返回至所述智能设备,以控制所述智能设备执行所述第一匹配结果中包含的指令,或者向使用者提示所述第一匹配结果。
优选的,该语义识别方法,其中,所述步骤S5中,如果未获得所述第一匹配结果,则利用所述语义关系子模型、所述句型关系子模型以及所述基本子模型对所述可识别内容进行关系语义匹配,获取相应的第二匹配结果;
则所述步骤S6中,所述服务端将所述第二匹配结果返回至所述智能设备,以控制所述智能设备执行所述第二匹配结果中包含的指令,或者向使用者提示所述第二匹配结果。
优选的,该语义识别方法,其中,所述步骤S5中,如果未获得所述第二匹配结果,则:
利用所述语义关系子模型中的模糊语义关系进行模糊语义识别、所述句型关系子模型以及所述基本子模型,获得相应的第三匹配结果;或者
利用所述语义关系子模型和所述通用子模型常识识别库对所述可识别内容进行模糊关系匹配,获得所述第三匹配结果;
则所述步骤S6中,所述服务端将所述第三匹配结果返回至所述智能设备,以控制所述智能设备执行所述第三匹配结果中包含的指令,或者向使用者提示所述第三匹配结果。
优选的,该语义识别方法,其中:所述语义关系子模型包括所述基本概念与所述扩展概念之间的对应关系。
优选的,该语义识别方法,其中:所述步骤S5中,获取所述第一匹配结果的步骤具体包括:
根据所述语义关系子模型中的与所述基本子模型中的基本概念相关的关系,判断再所述语义识别模型中的基本子模型中是否能够查找到与所述可识别内容直接精确匹配的基本概念:
若是,则根据直接精确匹配的所述基本概念获得所述第一匹配结果;
若否,则根据所述对应关系在所述基本子模型中查找得到与所述可识别内容直接精确匹配的所述扩展概念,并进而获得所述第一匹配结果。
优选的,该语义识别方法,其中:所述步骤S5中,获取所述第二匹配结果的步骤具体包括:
根据所述语义关系子模型中与所述句型关系子模型相关的关系,在所述句型关系子模型中查找与所述可识别内容直接匹配的句型关系,根据查找到的句型关系对所述可识别内容重新界定,再利用所述基本子模型对经过重新界定后的所述可识别内容进行语义匹配并获取所述第二匹配结果。
优选的,该语义识别方法,其中:所述步骤S5中,利用所述语义关系子模型中的模糊语义关系进行模糊语义识别、所述句型关系子模型以及所述基本子模型获得相应的第三匹配结果的步骤具体包括:
根据所述语义关系子模型中的模糊语义关系对所述可识别内容与所述句型关系网络进行关联识别,将所述可识别内容依赖于所述句型关系子模型中的其中一种所述句型关系,根据所依赖的所述句型关系对所述可识别内容重新界定,再利用所述基本子模型对经过重新界定后的所述可识别内容进行语义匹配并获取所述第三匹配结果。
优选的,该语义识别方法,其中:所述模糊语义关系包括上下文关系、概念聚类分类关系、领域分类关系、常用场景分类关系、语境关联关系或组合关联关系。
优选的,该语义识别方法,其中:对所述可识别文本的内容进行预处理的方式包括:
对所述可识别文本进行分词、噪声词去除或专有领域知识标注的处理。
优选的,该语义识别方法,其中:所述语义识别模型还包括背景子模型;
所述服务端依据所述背景子模型对所述可识别文本进行分词的处理;
所述背景子模型中包括通用词库和专有领域词库。
优选的,该语义识别方法,其中:所述步骤S5中,利用所述语义关系子模型和所述通用子模型常识识别库对所述可识别内容进行模糊关系匹配获得所述第三匹配结果的步骤具体包括:
根据所述语义关系子模型中与所述通用子模型相关的关系并利用所述通用子模型进行通用常识的训练,根据训练结果得到所述第三匹配结果;
所述第三匹配结果中包括语义识别结果或推理知识结果;
则所述步骤S6中,所述服务端将所述第三匹配结果返回至所述智能设备,以控制所述智能设备执行所述第三匹配结果中包含的指令,或者向使用者提示所述第三匹配结果。
优选的,该语义识别方法,其中:所述语义识别模型的建立过程包括:
步骤A1,利用交互学习机制结合互联网信息或用户行为数据建立初始的所述语义识别模型;
步骤A2,对所述互联网信息或所述用户行为数据进行识别、归类,并依据归类好的数据对初始的所述语义识别模型进行更新,以得到最终的所述语义识别模型并保存。
优选的,该语义识别方法,其中:所述语义识别模型的建立过程包括:
步骤B1,利用交互学习机制对特定领域、特定人群或用户个体的互联网信息或用户行为习惯与偏好进行处理;
步骤B2,依据处理得到的数据对所述语义识别模型进行更新。
优选的,该语义识别方法,其中,对所述语义识别模型进行更新的过程中包括对所述语义识别模型的基本子模型、句型关系子模型、通用子模型常识识别库以及语义关系子模型进行更新。
优选的,该语义识别方法,其中:所述语义识别模型还包括词表,所述词表中包括可进行语义识别的词的ID以及每个词所对应的关系号,根据所述可识别内容中的词在所述词表中的关系号,在所述语义关系子模型中查找相应的关系,并在与此关系对应的基本子模型、句型关系子模型或通用子模型常识识别库中进行语义匹配。
上述技术方案的有益效果是:提供一种语义识别方法,能够提升语义识别的精确性,同时能够更快速简捷地实现从语音识别到语义识别的跨度,缩短语义识别的过程,提升使用者的使用体验。
附图说明
图1是本发明的较佳的实施例中,一种语义识别方法的总体流程示意图;
图2-3是本发明的较佳的实施例中,获取第三匹配结果的流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
下面结合附图和具体实施例对本发明作进一步说明,但不作为本发明的限定。
本发明的较佳的实施例中,基于现有技术中存在的上述问题,现提供一种语义识别方法,适用于智能设备。
该语义识别方法中,利用语义识别模型辅助实现使用者与智能设备之间的人机交互,即利用一个预先形成的语义识别模型辅助对使用者输入的语音内容进行语义识别,并依据识别结果指示智能设备执行相应的操作,从而完成使用者和智能设备之间的人机交互;
则本发明的较佳的实施例中,上述语义识别模型包括:基本子模型、句型关系子模型、通用子模型常识识别库以及语义关系子模型;
其中:
1)基本子模型中包括预先定义的基本概念以及与基本概念对应的预先定义的扩展概念;
2)通用子模型包括预先定义的通用概念、对应于通用概念的关联领域以及至少一个通用概念的关联组合;
3)语义关系子模型包括与基本子模型、句型关系子模型以及通用子模型相关的关系以及模糊语义关系;
则本发明的较佳的实施例中,上述语义识别方法的具体步骤如图1所示,包括:
步骤S1,智能设备接收用户输入的语音信号,并利用语音识别技术将语音信号转变为可识别文本;
步骤S2,采用预先设置的密钥对可识别文本进行加密,并将加密后的可识别文本上传至一服务端;
步骤S3,在服务端对可识别文本进行解密;
步骤S4,于服务端中预设对应不同的关键词的解析模板,服务端在可识别文本中提取多个关键词,并分别对照解析模板将将可识别文本转变为可进行语义识别的可识别内容;
步骤S5,利用语义关系子模型和基本子模型对可识别内容进行精确语义匹配,获取相应的第一匹配结果;
步骤S6,服务端将第一匹配结果返回至智能设备,以控制智能设备执行第一匹配结果中包含的指令,或者向使用者提示第一匹配结果。
具体地,如上文中所述,本发明技术方案提出的语义识别方法中,只需要利用预先定义的语义识别模型辅助实现使用者和智能设备之间的人机交互。上述语义识别模型被预先设置在一个远程连接于智能设备的服务端上,则上述语义识别的过程均在服务端上进行。
本发明的较佳的实施例中,所谓语义识别模型,是一种典型的人工智能的识别模型结构,其具备识别推理功能和训练学习的能力,而且该语义识别模型不同于传统的人工智能模型,其主要针对知识库设计。换言之,为了实现对用户输入的自然语言进行识别,首先需要将搜集到的不同的应用领域的专业知识转化为可供识别推理的识别语句,并根据这些识别语句形成语义识别模型。在上述语义识别模型中至少包括基本子模型、句型关系子模型、通用子模型以及语义关系子模型。上述语义关系子模型包括与基本子模型、句型关系子模型以及通用子模型相关的关系以及模糊语义关系,这些关系例如可以用关系号来标示。
本发明的较佳的实施例中,上述步骤S1中,使用者向智能设备输入的包括自然语言的语音信号通常通过智能设备的人机交互接口被采集得到,该接口可以为例如智能设备上的麦克风或者其他拾音器。
进一步地,上述步骤S1中,通过智能设备上的拾音器获取语音信号后,采用传统的语音识别技术将这些语音信号转换为可识别文本,该文本可以为文本数据,即根据传统的语音识别技术将语音信号转换为相应的文本数据信号。现有技术中存在较多用于实现语音识别技术的技术方案,因此在此不再赘述。
本发明的较佳的实施例中,在将语音信号转换为可识别文本之后,智能设备会将可识别文本上传至远程连接该智能设备的服务端进行语义识别。上传至服务端进行语义识别的好处在于:服务端的存储容量和计算能力要远远大于一个智能设备,因此将语义识别的处理过程放在服务端进行有助于语义识别的精确性。
进一步地,本发明的较佳的实施例中,在将上述可识别文本上传至服务端之前,智能设备首先根据预设的密钥对上述可识别文本进行加密。上述密钥可以为预先设置的,例如预先设置一串密钥序列,从中选择一个密钥作为本次上传的加密密钥,也可以为根据当前时间或者根据当前随机数随机生成的密钥。则上述步骤S3中,上述服务端预先获取智能设备作为本次上传文本所用的加密密钥,并根据该加密密钥对接收到的可识别文本进行解密。
随后,本发明的较佳的实施例中,在服务端预先设置对应不同关键词的解析模板。换言之,利用不同的解析模板,可以将不同的关键词解析形成相应的可进行语义分析的可识别内容。例如,将可识别文本进行分词,以将其以关键词为单位划分为多个部分,并对每个部分依照对应的解析模板进行解析,并最终将解析结果经过预处理以合成可进行语义识别的可识别内容。
本发明的较佳的实施例中,如上文中所述,预先设置多个解析模板,并在对可识别文本进行解析时直接依据划分的关键词套用这些解析模板,能够直接快速地对可识别文本进行解析,提供解析效率。
本发明的较佳的实施例中,上述步骤S5中,利用语义关系子模型和基本子模型对可识别内容进行精确语义匹配,获取相应的第一匹配结果。该步骤被称为语义识别过程中的精确语义匹配步骤。具体地,该步骤S5中,由于语义识别模型中的基本子模型包含了含义精确的条目,例如:基本概念、基本概念的扩展概念,从而可以与可进行语义识别的内容进行精确匹配,实现语义识别的目的。
例如,基本子模型包含精确的控制指令概念、应用名称概念、影视名称概念、音乐名称概念、导演演员名称概念、电视台名称概念等一系列基本概念,以及基本概念的扩展概念,例如,对电影类型概念“动作片”扩展得出的“武打片”、“功夫片”等,属于基本概念的扩展概念,基本概念及其基本概念的扩展概念构成含义精确的条目。而基本概念与扩展概念之间的对应关系存放在语义关系子模型中,语义关系还存放有基本概念本身的关系,这些关系都可以由对应的关系号来标示,例如100标示电影类型概念,100a标示电影类型概念的扩展概念等等。
进一步地,上述步骤S5中,首先根据语义关系子模型中的与基本子模型中的基本概念相关的关系,在语义识别模型中的基本子模型中查找与上述可识别内容可直接精确匹配的基本概念:
若能够查找到,则根据直接精确匹配的基本概念获得第一匹配结果;
若不能查找到,则根据语义关系子模型中的基本概念与扩展概念之间的对应关系在基本子模型的扩展概念中查找与可识别内容直接精确匹配的扩展概念,获得第一匹配结果。
换言之,本发明的较佳的实施例中,首先在基本子模型中查找是否存在与可识别内容直接精确匹配的基本概念:若存在,则直接根据这些相匹配的基本概念获取第一匹配结果;若不存在,则转向基本子模型中的扩展概念并同样查找是否存在直接精确匹配的扩展概念,找到并根据相匹配的扩展概念获取第一匹配结果。
具体地,本发明的一个较佳的实施例中,如果输入的语音内容被预处理为“动作片”,且该“动作片”并无上下文逻辑,则利用语义关系子模型中电影类型概念的关系在基本子模型中的电影类型概念中找到“动作片”这一基本概念,从而认为,语音输入的内容可被精确匹配,无需进行后续语义识别过程即可确定用户的意图。
如果输入的语音内容被预处理为“武打片”,且该“武打片”并无上下文逻辑,在基本子模型的电影类型概念中查找不到“武打片”,那么根据上述基本子模型中与电影类型这个基本概念相对应的扩展概念的关系即可在基本子模型中的电影类型的扩展概念中查找到“武打片”这一扩展概念,从而认为语音输入的内容可以被精确匹配,无需进行后续语义识别过程即可确定用户的意图。
本发明的较佳的实施例中,上述语义识别模型中还包括词表,词表中包括可进行语义识别的词的序号(ID)以及每个词所对应的关系号。例如,在对于电视功能进行控制的应用中,将针对人名、应用名、控制词汇、影视名等采用多对多的方式进行构建。在每一步的语义识别过程中,每个词所对应的关系号根据具体适用场景进行预设,亦可根据需要扩充关系数量,增加关系定义。每个词的ID都是唯一的,因此可以根据可识别内容中的词在词表中查找到与该次对应的关系号,再根据关系号在语义关系子模型中查找相应的关系。
本发明的较佳的实施例中,这些关系可能会指向基本子模型、句型关系子模型或通用子模型中的一个。在上述实施例中,上述关系指向基本子模型,例如上文中所述的“武打片”在词表中的ID对应的关系号被预设为100,而在语义关系子模型中该关系号100的基本概念表示的是电影类型,因此就可以在基本子模型中的电影类型的基本概念里查找。
本发明的较佳的实施例中,上述步骤S4中,若无法获取第一匹配结果,即对基本概念和扩展概念进行精确匹配后均无法得到匹配结果,则继续执行下述步骤:
利用语义关系子模型、句型关系子模型以及基本子模型对可识别内容进行关系语义匹配,获取相应的第二匹配结果;
则在上述步骤S6中,服务端将第二匹配结果返回至智能设备,以控制智能设备执行第二匹配结果中包含的指令,或者向使用者提示第二匹配结果。
具体地,本发明的较佳的实施例中,上述处理过程被称为语义识别过程中的关系语义匹配步骤。于上述步骤S5中,根据语义关系子模型中与句型关系子模型相关的关系,在句型关系子模型中查找与可识别内容的句型关系直接匹配的句型关系,根据所匹配的句型关系对可识别内容重新界定,再利用语义识别模型中的基本子模型对经过重新界定的可识别内容进行语义匹配以获取第二匹配结果。
换言之,本发明的较佳的实施例中,语义识别模型根据句型关系子模型对可识别内容进行重新进行界定后还需要利用基本子模型对经过重新界定的可识别内容进行语义匹配并获取第二匹配结果。即先通过语义关系子模型的处理,再执行基本子模型的处理,最终得到第二匹配结果。
本发明的较佳的实施例中,上述步骤S5中,可识别内容如果无法获得精确语义匹配结果,可以分为三种情况;
第一类内容是没有上下文关系,但是仍无法获得第一匹配结果。
第二类内容是具有上下文关系,并可以由句型关系对其内容做出界定的内容。
第三类内容是具有上下文关系,无法直接通过句型关系对其进行界定。
针对第一类内容,由于其没有上下文关系,可以通过词频关系、计算距离等方式将其与基本子模型中的概念进行语义关联,如果关联度可以限定在一定阈值范围内,则可以认为得到了第二匹配结果。如果这样仍很难得到第二匹配结果,还是可以通过模糊匹配进行语义识别。
针对第二类内容,由于句型关系子模型中包括各种句型关系,通过将可识别内容与句型关系进行匹配,如果符合某一种句型关系,则在一定程度上可以界定内容的所属语义分类,然后再根据其中内容的具体词语并利用词表找到这些词的关系号,在语义关系子模型中找到对应的基本子模型中的关系,最后在基本子模型进行匹配,确定具体语义,获得第二匹配结果。
对于上述第三类内容,在下文中会详述。
本发明的较佳的实施例中,上述步骤S5中,若经过关系匹配也无法获得第二匹配结果(即上述第三类内容),则继续执行下述步骤:
利用语义关系子模型中的模糊语义关系进行模糊语义识别、句型关系子模型以及基本子模型,获得相应的第三匹配结果;或者
利用语义关系子模型和通用子模型常识识别库对可识别内容进行模糊关系匹配,获得第三匹配结果;
则步骤S6中,服务端将第三匹配结果返回至智能设备,以控制智能设备执行第三匹配结果中包含的指令,或者向使用者提示第三匹配结果。
具体地,本发明的较佳的实施例中,上述步骤为模糊关系匹配步骤。该模糊关系匹配步骤中用到的模糊语义关系通常可以包括上下文关系、概念聚类分类关系、领域分类关系、常用场景分类关系、语境关联关系或组合关联关系等,并且还可以根据应用场景的变化对关系进行补充。
本发明的较佳的实施例中,上述通用子模型中可以包括:常识概念、常识概念的关联领域以及常识概念的关联组合。上述通用子模型可以通过交互学习机制结合互联网信息与用户行为数据建立,实现通用子模型的自我更新,将其中符合用户习惯的知识作为学习结果加入常用通用子模型,剩余知识作为备用通用子模型存在,形成通用子模型。进一步的,通用子模型还可以进入用户个性化提取机制,对特定群体、领域用户或个体用户的使用个性进行提取,以实现个性化的用户需求。
需要说明的是,整个语义识别模型,包括其中的基本子模型、语义关系子模型、句型关系子模型等都可以通过上述方式进行更新,即采用如图2中所述的步骤进行更新:
步骤A1,利用交互学习机制结合互联网信息或用户行为数据建立初始的语义识别模型;
步骤A2,对互联网信息或用户行为数据进行识别、归类,并依据归类好的数据对初始的语义识别模型进行更新,以得到最终的语义识别模型并保存。
进一步地,本发明的较佳的实施例中,同样可以利用交互学习机制根据特定领域、特定人群或用户个体的互联网信息或用户行为习惯与偏好对语义识别模型进行更新,包括对语义识别模型的基本子模型、句型关系子模型、通用子模型或语义关系子模型进行更新。即语义识别模型的更新过程还可以进一步地如图3所示,包括:
步骤B1,利用交互学习机制对特定领域、特定人群或用户个体的互联网信息或用户行为习惯与偏好进行处理;
步骤B2,依据处理得到的数据对语义识别模型进行更新。
模糊语义匹配给出的结果并不一定准确,但是必然会输出一个系统认为最匹配的结果。在此过程中,可以使用上下文语境识别技术、词性关系识别技术、常识知识匹配技术、自动学习技术、用户习惯抽取技术等。
具体地,回到模糊关系匹配步骤中,本发明的较佳的实施例中,实现模糊关系匹配的关键在于通过上下文的语境识别对关键词进行模糊匹配。例如对于下述“教育孩子”、“教育要面向现代化”、“兴办教育”这三句话中关于“教育”的理解可以通过上下文的语境识别技术实现。具体地,
1)“教育”作为一个基本概念,与可以表征为儿童的基本概念“孩子”后续连接时,可以认为这句话的意图是把“教育”作为一个动作,而“孩子”是动作的受体。
2)“教育要面向现代化”中同样是教育,但后续连接的是“面向”和“现代化”这两个词,则可以判断这两个词不应该作为动作的受体。同时“现代化”可以作为一个修饰语存在,进而判断“教育”在其中的真正意义是做一个被修饰语。
3)在“兴办教育”中的“教育”有前续连接词“兴办”,通过对“兴办”的词性和“教育”的词性识别可以确定“教育”在本句话中作为名词。
通过上述上下文的语境识别,将确定好的词性、词语关系以及语境与通用子模型中的通用概念,通用概念的关联领域和通用概念的关联组合进行匹配得到模糊语义匹配结果,也可以将确定好的释义与语义识别模型中的基本子模型、句型关系子模型进行匹配,从而获得模糊语义匹配结果。
本发明的较佳的实施例中,上述三个步骤(精确语义匹配步骤、关系语义匹配步骤以及模糊语义匹配步骤)并不是都需要执行的。
本发明的一个较佳的实施例中,在一个完整的语义识别过程中,若通过精确语义匹配步骤可以得到第一匹配结果,则直接根据第一匹配结果进行后续操作,无需再执行关系语义匹配步骤和模糊语义匹配步骤。
本发明的一个较佳的实施例中,在一个完整的语义识别过程中,若通过精确语义匹配步骤无法得到第一匹配结果,则转而执行关系语义匹配步骤并得到第二匹配结果。此时可以直接根据第二匹配结果进行后续操作,而无需再执行模糊语义匹配步骤。
本发明的一个较佳的实施例中,在一个完整的语义识别过程中,若通过精确语义匹配步骤和关系语义匹配步骤均无法得到匹配结果,则转而执行模糊语义匹配步骤并得到第三匹配结果,并进而根据第三匹配结果执行后续操作。
换言之,本发明的较佳的实施例中,上述三个步骤可以为依序进行的,若根据其中一个步骤已经可以得到相应的匹配结果,则无需再进行后续的匹配步骤,因此上述三个步骤并不一定都存在于一次完整的语义识别过程中。
本发明的较佳的实施例中,上文中所述的步骤S6中,服务端最终向智能设备回传识别得到的匹配结果(第一匹配结果,或者第二匹配结果或者第三匹配结果),智能设备根据匹配结果中包括的不同内容执行不同的操作。例如:
1)如果使用者先前输入到智能设备中的语音信号为指令性信号,例如开启某某程序、更换桌面等,则最终服务端匹配得到的匹配结果中同样包括相应的指令,即服务端通过语义识别的过程将使用者期望指示的指令进行标准化输出至智能设备,以控制智能设备执行使用者期望的操作。
2)如果使用者先前输入到智能设备中的语音信号是询问或者查找等类型的信号,则最终服务端匹配得到的匹配结果中包括语义识别后给出的推理结果或者对应于询问或者查找的回答结果。服务端将上述推理结果或者回答结果返回给智能设备,则智能设备将这些推理结果或者回答结果显示给使用者查看。
本发明技术方案中提供的语义识别方法将使用者输入的语音内容经过语音识别之后,按照从精确到模糊的顺序进行语义识别,具有系统化、高扩展性和高可行性的特点,可以有效地对使用者输入的自然语言进行识别和推理,支持对使用者输入的语言进行精确或者模糊识别,使使用者能够更自然、方便地与智能设备进行交互。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,对于系统类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者装置中还存在另外的相同要素。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明,任何熟悉本专业的技术人员,在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容做出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本发明技术方案的范围内。

Claims (15)

1.一种语义识别方法,适用于智能设备;其特征在于:利用语义识别模型辅助实现使用者与智能设备之间的人机交互;
所述语义识别模型包括:基本子模型、句型关系子模型、通用子模型常识识别库以及语义关系子模型;
所述基本子模型中包括预先定义的基本概念以及与所述基本概念对应的预先定义的扩展概念;
所述通用子模型包括预先定义的通用概念、对应于所述通用概念的关联领域以及至少一个所述通用概念的关联组合;
所述语义关系子模型包括与所述基本子模型、所述句型关系子模型以及所述通用子模型相关的关系以及模糊语义关系;
所述语音识别方法具体包括:
步骤S1,所述智能设备接收用户输入的语音信号,并利用语音识别技术将所述语音信号转变为可识别文本;
步骤S2,采用预先设置的密钥对所述可识别文本进行加密,并将加密后的所述可识别文本上传至一服务端;
步骤S3,在所述服务端对所述可识别文本进行解密;
步骤S4,于所述服务端中预设对应不同的关键词的解析模板,所述服务端在所述可识别文本中提取多个所述关键词,并分别对照所述解析模板将将所述可识别文本转变为可进行语义识别的可识别内容;
步骤S5,利用所述语义关系子模型和所述基本子模型对所述可识别内容进行精确语义匹配,获取相应的第一匹配结果;
步骤S6,所述服务端将所述第一匹配结果返回至所述智能设备,以控制所述智能设备执行所述第一匹配结果中包含的指令,或者向使用者提示所述第一匹配结果。
2.如权利要求1所述的语义识别方法,其特征在于,所述步骤S5中,如果未获得所述第一匹配结果,则利用所述语义关系子模型、所述句型关系子模型以及所述基本子模型对所述可识别内容进行关系语义匹配,获取相应的第二匹配结果;
则所述步骤S6中,所述服务端将所述第二匹配结果返回至所述智能设备,以控制所述智能设备执行所述第二匹配结果中包含的指令,或者向使用者提示所述第二匹配结果。
3.如权利要求2所述的语义识别方法,其特征在于,所述步骤S5中,如果未获得所述第二匹配结果,则:
利用所述语义关系子模型中的模糊语义关系进行模糊语义识别、所述句型关系子模型以及所述基本子模型,获得相应的第三匹配结果;或者
利用所述语义关系子模型和所述通用子模型常识识别库对所述可识别内容进行模糊关系匹配,获得所述第三匹配结果;
则所述步骤S6中,所述服务端将所述第三匹配结果返回至所述智能设备,以控制所述智能设备执行所述第三匹配结果中包含的指令,或者向使用者提示所述第三匹配结果。
4.如权利要求1所述的语义识别方法,其特征在于:所述语义关系子模型包括所述基本概念与所述扩展概念之间的对应关系。
5.如权利要求4所述的语义识别方法,其特征在于:所述步骤S5中,获取所述第一匹配结果的步骤具体包括:
根据所述语义关系子模型中的与所述基本子模型中的基本概念相关的关系,判断再所述语义识别模型中的基本子模型中是否能够查找到与所述可识别内容直接精确匹配的基本概念:
若是,则根据直接精确匹配的所述基本概念获得所述第一匹配结果;
若否,则根据所述对应关系在所述基本子模型中查找得到与所述可识别内容直接精确匹配的所述扩展概念,并进而获得所述第一匹配结果。
6.如权利要求2所述的语义识别方法,其特征在于:所述步骤S5中,获取所述第二匹配结果的步骤具体包括:
根据所述语义关系子模型中与所述句型关系子模型相关的关系,在所述句型关系子模型中查找与所述可识别内容直接匹配的句型关系,根据查找到的句型关系对所述可识别内容重新界定,再利用所述基本子模型对经过重新界定后的所述可识别内容进行语义匹配并获取所述第二匹配结果。
7.如权利要求3所述的语义识别方法,其特征在于:所述步骤S5中,利用所述语义关系子模型中的模糊语义关系进行模糊语义识别、所述句型关系子模型以及所述基本子模型获得相应的第三匹配结果的步骤具体包括:
根据所述语义关系子模型中的模糊语义关系对所述可识别内容与所述句型关系网络进行关联识别,将所述可识别内容依赖于所述句型关系子模型中的其中一种所述句型关系,根据所依赖的所述句型关系对所述可识别内容重新界定,再利用所述基本子模型对经过重新界定后的所述可识别内容进行语义匹配并获取所述第三匹配结果。
8.如权利要求1所述的语义识别方法,其特征在于:所述模糊语义关系包括上下文关系、概念聚类分类关系、领域分类关系、常用场景分类关系、语境关联关系或组合关联关系。
9.如权利要求1所述的语义识别方法,其特征在于:对所述可识别文本的内容进行预处理的方式包括:
对所述可识别文本进行分词、噪声词去除或专有领域知识标注的处理。
10.如权利要求9所述的语义识别方法,其特征在于:所述语义识别模型还包括背景子模型;
所述服务端依据所述背景子模型对所述可识别文本进行分词的处理;
所述背景子模型中包括通用词库和专有领域词库。
11.如权利要求1所述的语义识别方法,其特征在于:所述步骤S5中,利用所述语义关系子模型和所述通用子模型常识识别库对所述可识别内容进行模糊关系匹配获得所述第三匹配结果的步骤具体包括:
根据所述语义关系子模型中与所述通用子模型相关的关系并利用所述通用子模型进行通用常识的训练,根据训练结果得到所述第三匹配结果;
所述第三匹配结果中包括语义识别结果或推理知识结果;
则所述步骤S6中,所述服务端将所述第三匹配结果返回至所述智能设备,以控制所述智能设备执行所述第三匹配结果中包含的指令,或者向使用者提示所述第三匹配结果。
12.如权利要求1所述的语义识别方法,其特征在于:所述语义识别模型的建立过程包括:
步骤A1,利用交互学习机制结合互联网信息或用户行为数据建立初始的所述语义识别模型;
步骤A2,对所述互联网信息或所述用户行为数据进行识别、归类,并依据归类好的数据对初始的所述语义识别模型进行更新,以得到最终的所述语义识别模型并保存。
13.如权利要求12所述的语义识别方法,其特征在于:所述语义识别模型的建立过程包括:
步骤B1,利用交互学习机制对特定领域、特定人群或用户个体的互联网信息或用户行为习惯与偏好进行处理;
步骤B2,依据处理得到的数据对所述语义识别模型进行更新。
14.如权利要求12或13所述的语义识别方法,其特征在于,对所述语义识别模型进行更新的过程中包括对所述语义识别模型的基本子模型、句型关系子模型、通用子模型常识识别库以及语义关系子模型进行更新。
15.如权利要求1所述的语义识别方法,其特征在于:所述语义识别模型还包括词表,所述词表中包括可进行语义识别的词的ID以及每个词所对应的关系号,根据所述可识别内容中的词在所述词表中的关系号,在所述语义关系子模型中查找相应的关系,并在与此关系对应的基本子模型、句型关系子模型或通用子模型常识识别库中进行语义匹配。
CN201610024359.1A 2016-01-14 2016-01-14 一种语义识别方法 Pending CN106970907A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610024359.1A CN106970907A (zh) 2016-01-14 2016-01-14 一种语义识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610024359.1A CN106970907A (zh) 2016-01-14 2016-01-14 一种语义识别方法

Publications (1)

Publication Number Publication Date
CN106970907A true CN106970907A (zh) 2017-07-21

Family

ID=59335131

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610024359.1A Pending CN106970907A (zh) 2016-01-14 2016-01-14 一种语义识别方法

Country Status (1)

Country Link
CN (1) CN106970907A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107562546A (zh) * 2017-09-18 2018-01-09 上海量明科技发展有限公司 任务分配方法、装置及即时通信工具
CN107644642A (zh) * 2017-09-20 2018-01-30 广东欧珀移动通信有限公司 语义识别方法、装置、存储介质及电子设备
CN108132805A (zh) * 2017-12-20 2018-06-08 深圳Tcl新技术有限公司 语音交互方法、装置及计算机可读存储介质
CN110194338A (zh) * 2019-07-17 2019-09-03 简科宇 垃圾分类回收装置
CN110750626A (zh) * 2018-07-06 2020-02-04 中国移动通信有限公司研究院 一种基于场景的任务驱动的多轮对话方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101247232A (zh) * 2008-03-27 2008-08-20 上海金鑫计算机系统工程有限公司 数据交换传输中基于数字签名的加密技术方法
CN102968409A (zh) * 2012-11-23 2013-03-13 海信集团有限公司 智能人机交互语义分析方法及交互系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101247232A (zh) * 2008-03-27 2008-08-20 上海金鑫计算机系统工程有限公司 数据交换传输中基于数字签名的加密技术方法
CN102968409A (zh) * 2012-11-23 2013-03-13 海信集团有限公司 智能人机交互语义分析方法及交互系统

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107562546A (zh) * 2017-09-18 2018-01-09 上海量明科技发展有限公司 任务分配方法、装置及即时通信工具
CN107644642A (zh) * 2017-09-20 2018-01-30 广东欧珀移动通信有限公司 语义识别方法、装置、存储介质及电子设备
CN107644642B (zh) * 2017-09-20 2021-01-15 Oppo广东移动通信有限公司 语义识别方法、装置、存储介质及电子设备
CN108132805A (zh) * 2017-12-20 2018-06-08 深圳Tcl新技术有限公司 语音交互方法、装置及计算机可读存储介质
CN110750626A (zh) * 2018-07-06 2020-02-04 中国移动通信有限公司研究院 一种基于场景的任务驱动的多轮对话方法及系统
CN110750626B (zh) * 2018-07-06 2022-05-06 中国移动通信有限公司研究院 一种基于场景的任务驱动的多轮对话方法及系统
CN110194338A (zh) * 2019-07-17 2019-09-03 简科宇 垃圾分类回收装置

Similar Documents

Publication Publication Date Title
CN110717017B (zh) 一种处理语料的方法
CN102968409B (zh) 智能人机交互语义分析方法及交互系统
CN106601237B (zh) 交互式语音应答系统及其语音识别方法
CN106649825B (zh) 语音交互系统及其创建方法和装置
CN110196978A (zh) 一种关注关联词的实体关系抽取方法
KR100533810B1 (ko) 백과사전 질의응답 시스템의 지식베이스 반자동 구축 방법
CN102262634B (zh) 一种自动问答方法及系统
CN108595708A (zh) 一种基于知识图谱的异常信息文本分类方法
CN106970906A (zh) 一种基于语句分段的语义分析方法
CN106997341B (zh) 一种创新方案匹配方法、装置、服务器及系统
CN107818164A (zh) 一种智能问答方法及其系统
CN108711420A (zh) 多语言混杂模型建立、数据获取方法及装置、电子设备
CN106970907A (zh) 一种语义识别方法
CN110825867B (zh) 相似文本推荐方法、装置、电子设备和存储介质
CN106970909A (zh) 一种二次匹配语义的语义分析方法
CN104462064A (zh) 一种移动终端信息通讯提示输入内容的方法和系统
CN112328800A (zh) 自动生成编程规范问题答案的系统及方法
CN114676255A (zh) 文本处理方法、装置、设备、存储介质及计算机程序产品
KR20200105057A (ko) 질의 문장 분석을 위한 질의 자질 추출 장치 및 방법
CN107943940A (zh) 数据处理方法、介质、系统和电子设备
Shekhawat Sentiment classification of current public opinion on BREXIT: Naïve Bayes classifier model vs Python’s TextBlob approach
KR101333485B1 (ko) 온라인 사전을 이용한 개체명 사전 구축 방법 및 이를 실행하는 장치
CN106970905A (zh) 一种语义分析方法
CN106970908A (zh) 一种语音内容分析方法
CN113486143A (zh) 一种基于多层级文本表示及模型融合的用户画像生成方法

Legal Events

Date Code Title Description
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170721

RJ01 Rejection of invention patent application after publication