CN111402866B - 语义识别方法、装置及电子设备 - Google Patents

语义识别方法、装置及电子设备 Download PDF

Info

Publication number
CN111402866B
CN111402866B CN202010206165.XA CN202010206165A CN111402866B CN 111402866 B CN111402866 B CN 111402866B CN 202010206165 A CN202010206165 A CN 202010206165A CN 111402866 B CN111402866 B CN 111402866B
Authority
CN
China
Prior art keywords
semantic
voice
recognized
text
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010206165.XA
Other languages
English (en)
Other versions
CN111402866A (zh
Inventor
朱城锐
冯大航
陈孝良
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing SoundAI Technology Co Ltd
Original Assignee
Beijing SoundAI Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing SoundAI Technology Co Ltd filed Critical Beijing SoundAI Technology Co Ltd
Priority to CN202010206165.XA priority Critical patent/CN111402866B/zh
Publication of CN111402866A publication Critical patent/CN111402866A/zh
Application granted granted Critical
Publication of CN111402866B publication Critical patent/CN111402866B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Machine Translation (AREA)

Abstract

本公开提供一种语义识别方法、装置及电子设备,该方法包括:通过确定电子设备的工作状态;根据所述工作状态确定语义识别模型;利用所述语义识别模型识别接收到的待识别语音。通过根据电子设备的工作状态,确定对应的语义识别模型,并根据语义识别模型对待识别语音进行识别,由于对待识别语音进行识别的语义识别模型更有针对性,可提高识别的准确率。

Description

语义识别方法、装置及电子设备
技术领域
本公开涉及人工智能技术领域,尤其涉及一种语义识别方法、装置及电子设备。
背景技术
随着人工智能的发展,基于语音信号进行响应的电子设备的应用越来越广泛。电子设备在对语音信号进行响应时,需要对语音信号的语义进行判断,然后进一步基于识别出的语义进行响应。但是目前的语义识别模型,使用场景单一,使得语义识别的准确率低。
发明内容
本公开实施例提供一种语义识别方法、装置及电子设备,以解决目前相关技术中语义识别准确率低的问题。
为解决上述技术问题,本公开是这样实现的:
根据本公开实施例的第一方面,提供了一种语义识别方法,应用于电子设备,包括:
确定电子设备的工作状态;
根据所述工作状态确定语义识别模型;
利用所述语义识别模型识别接收到的待识别语音。
根据本公开实施例的第二方面,提供了一种电子设备,包括:
第一确定模块,用于确定电子设备的工作状态;
第二确定模块,用于根据所述工作状态确定语义识别模型;
识别模块,用于利用所述语义识别模型识别接收到的待识别语音。
根据本公开实施例的第三方面,提供了一种电子设备,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现上述语义识别方法的步骤。
根据本公开实施例的第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述语义识别方法的步骤。
本公开的实施例提供的技术方案可以包括以下有益效果:
通过确定电子设备的工作状态;根据所述工作状态确定语义识别模型;利用所述语义识别模型识别接收到的待识别语音。通过根据电子设备的工作状态,确定对应的语义识别模型,并根据语义识别模型对待识别语音进行识别,由于对待识别语音进行识别的语义识别模型更有针对性,可提高识别的准确率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本公开。
附图说明
图1是根据一示例性实施例示出的一种语义识别方法的流程图;
图2是根据一示例性实施例示出的一种语义判断模块示意图;
图3是根据一示例性实施例示出的一种语义识别过程示意图;
图4是根据一示例性实施例示出的一种识别模型训练过程示意图;
图5a是根据一示例性实施例示出的一种语义识别装置的结构图之一;
图5b是根据一示例性实施例示出的一种语义识别装置的结构图之二;
图5c是根据一示例性实施例示出的一种语义识别装置的结构图之三;
图6是根据一示例性实施例示出的另一种电子设备的结构图。
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
具体实施方式
下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
图1是根据一示例性实施例示出的一种语义识别方法的流程图,如图1所示,本实施例提供一种语义识别方法,应用于电子设备,包括以下步骤:
步骤101、确定电子设备的工作状态。
其中,电子设备的工作状态可包括播放状态、等待接收用户回答状态或者其他状态等等。若电子设备当前正在进行播放,如播放音乐、电影等,则将电子设备的工作状态确定为播放状态;若电子设备当前正在等待接收用户回答,则将电子设备的工作状态确定为等待接收用户回答状态。电子设备的工作状态的划分可根据实际情况进行灵活设置。
步骤102、根据所述工作状态确定语义识别模型。
根据不同的工作状态可确定不同的语义识别模型,具体可为工作状态与工作场景对应,工作场景与语义识别模型对应。例如,播放状态对应播放场景,等待接收用户回答状态对应提问场景,其他状态对应普通场景。工作状态与工作场景的对应关系可根据实际情况进行灵活设置。不同的工作场景对应不用的识别模型,每个工作场景对应一个语义识别模型。工作场景对应的语义识别模型是针对该工作场景进行训练获得的识别模型。
如图2所示,图2中的电子设备在语义判断部分首先进行场景判断,即确定工作场景,然后根据工作场景确定对应的语义识别模型,图2中示出了普通场景模型、播放场景模型和提问场景模型三种语义识别模型。
步骤103、利用所述语义识别模型识别接收到的待识别语音。
待识别语音可以是电子设备接收到的一段语音信号,接收完成后利用语义识别模型对待识别语音进行识别。
本实施例中,通过确定电子设备的工作状态;根据所述工作状态确定语义识别模型;利用所述语义识别模型识别接收到的待识别语音。通过根据电子设备的工作状态,确定对应的语义识别模型,并根据语义识别模型对待识别语音进行识别,由于对待识别语音进行识别的语义识别模型更有针对性,可提高识别的准确率。
在本公开一个实施例中,所述利用所述语义识别模型识别接收到的待识别语音,包括:
对所述待识别语音进行语音活动检测,得到待识别话音;
对所述待识别话音进行语义识别,得到语义文本;
对所述语义文本进行完整度识别;
在所述语义文本为完整文本的情况下,将所述语义文本确定为待识别语音的识别结果;
在所述语义文本为不完整文本的情况下,拼接所述待识别语音和后续接收到的待识别语音,得到拼接语音;将所述拼接语音作为待识别语音,并返回执行对所述待识别语音进行语音活动检测,得到待识别话音的步骤,直至所述拼接语音的语义文本为完整文本。
目前主要依照待识别语音的强弱来区分语音信号与背景噪声信号,在语音信号衰减到一定程度后,即判断语音结束,但是这需要等待时间,一段完整的话音信号很有可能在中间被分段开,例如,用户说话过程中,有了一个较长的停顿,这种情况下会被认为是语音结束。在本实施例中,对所述待识别语音进行语音活动检测,可以采用预设条件对待识别语音进行截取,获得待识别话音,预设条件可为每隔预设时间段,或者检测到待识别语音包括预设时长的停顿等等,预设时间段和预设时长都可以根据实际情况设置。
如图3所示,对获得的待识别话音进行语义识别,获得语义文本,并进一步对所述语义文本进行完整度识别,以确定语义文本是否完整。在语义文本为完整文本的情况下,将语义文本确定为待识别语音的识别结果;在语义文本为不完整文本的情况下,拼接待识别语音和后续接收到的待识别语音,得到拼接语音,然后将拼接语音作为待识别语音,再次执行对待识别语音进行语音活动检测,得到待识别话音的步骤,即重新对待识别语音(此时的待识别语音为拼接语音)进行截取,获得待识别话音,并且继续对待识别话音进行语义识别,得到语义文本,并对所述语义文本进行完整度识别。也就是说,在确定截取到的待识别话音的语义文本不完整的情况下,需要重新对拼接语音进行截取,直至拼接语音的语义文本为完整文本。本实施例提供的利用所述语义识别模型识别接收到的待识别语音的方式,在提高识别准确率的同时,还能减少语义识别模型的等待时间,即不同通过等待一段时间来判断话音结束,提高了识别效率。
在本公开一个实施例中,所述语义识别模型包括语义判断子模型;
所述对所述语义文本进行完整度识别,包括:
通过所述语义判断子模型,并基于所述待识别语音的上下文,对所述语义文本进行完整度识别。
如图4所示,图4所示为语义判断子模型的训练(或者识别)示意图,语义判断子模型为包括64个网络单元的LSTM网络模型,图中a0、a1、……、an表示上一时刻最后一层隐藏层的输出,a0为0。X0、X1、……、Xn表示训练语句中的字。Xn为训练语句中语句的最后一个字,通过将语句中的字循环的输入之后,再输入最后一个字后,获得输出Y,即分类的结果。图4中的语义判断子模型是基于上下文的识别模型,可基于待识别语音的上下文,对所述语义文本进行完整度识别。
基于上下文是指语义判断子模型联系说话者的上下文,保留说话者上一句话的记忆,来判断这一句话是否完整。具体方案是训练时,以整段的文本进行训练。例如,“我家门前有两棵树,一颗是枣树,另一颗也是枣树”,将第一句“我家门前有两棵树”输入语义判断子模型之后,将最后一层的隐含层的输出与下一句“一颗是枣树”一起,作为第一层隐含层的(初始化的隐含层,一般默认为0)输入,输入至语义判断子模型进行训练,以实现基于上下文的模型训练。在使用语义判断子模型进行预测时,语义判断子模型会记录待识别语音的最后一层隐含层的输出,这样在下一次预测时,最后一层隐含层的输出会作为下一时刻的第一层隐含层的输入参与判断,这种基于上下文的判断,可进一步提高语义判断子模型的准确率。
在本公开一个实施例中,所述语义识别方法还包括:
基于训练数据集,预训练所述语义判断子模型;
其中,所述训练数据集包括完整文本和不完整文本。
具体的,语义判断子模型可为长短期记忆网络(Long Short-Term Memory,简称LSTM)模型,LSTM网络模型是一种循环神经网络(Recurrent Neural Network,简称RNN)模型。在对语义判断子模型进行预训练时,应用在不同场景下的语义判断子模型所采用的训练数据集不同。获取训练数据集后,对训练数据集进行标注,例如,对完整文本标注为1,不完整文本标注为0。
播放场景可以理解为电子设备(例如音箱)正在播放内容,例如正在播放音乐,小说等。此场景下可能针对“停”、“停止”、“继续”等短命令更加敏感,因此训练数据集主要集中在播放时的短命令。提问场景是电子设备对用户进行提问的场景,因此训练数据集偏向一些简短回答,如“是”,“好”,“今天”等。通过对语义判断子模型进行基于训练数据集的预训练,可获得对待识别语音进行完整性识别的语义判断子模型。
在本公开一个实施例中,所述基于训练数据集,预训练所述语义判断子模型,包括:
基于数据字典,将所述完整文本和/或不完整文本转换成数字序列;
对所述数字序列进行编码,获得编码序列;
基于所述编码序列,预训练所述语义判断子模型。
具体的,训练数据集里的语句(即完整文本和/或不完整文本)按照序列处理,每个语句为一个序列,每个序列里的元素为每个语句里的字,这些字根据数字字典,转换成对应的数字,获得每个语句对应的数字序列,再将数字序列进行一位有效编码(即One-Hot编码),获得编码序列(即One-Hot向量),编码序列为语义判断子模型的输入,以对语义判断子模型进行预训练,获得训练好的语义判断子模型,语义判断子模型模型的识别结果可为分类结果,属于完整分类还是不完整分类。
进一步的,在获得数字序列之后,可通过embedding变换对编码序列进行处理,embedding变换可以将高维数据映射到较低维空间,这可以解决稀疏输入数据,减少基础模型训练阶段的数据计算量,提高数据处理效率。将经过embedding变换后获得的序列作为语义判断子模型的输入,以对语义判断子模型进行训练。
本实施例可以基于数据字典,将所述完整文本和/或不完整文本转换成数字序列,对所述数字序列进行编码,获得编码序列;基于所述编码序列,预训练所述语义判断子模型,这样获得的语义判断子模型对接收到的待识别语音进行识别时,准确率更高。
参见图5a-5c,图5a-5c是本公开实施例提供的语义识别装置的结构图,语义识别装置500包括:
第一确定模块501,用于确定电子设备的工作状态;
第二确定模块502,用于根据所述工作状态确定语义识别模型;
识别模块503,用于利用所述语义识别模型识别接收到的待识别语音。
在本公开一个实施例中,所述识别模块503,包括:
第一获取子模块5031,用于对所述待识别语音进行语音活动检测,得到待识别话音;
第二获取子模块5032,用于对所述待识别话音进行语义识别,得到语义文本;
识别子模块5033,用于对所述语义文本进行完整度识别;
第一确定子模块5034,用于在所述语义文本为完整文本的情况下,将所述语义文本确定为待识别语音的识别结果;
拼接子模块5035,用于在所述语义文本为不完整文本的情况下,拼接所述待识别语音和后续接收到的待识别语音,得到拼接语音;
第二确定子模块5036,用于将所述拼接语音作为待识别语音,并触发所述第一获取子模块,直至所述拼接语音的语义文本为完整文本。
在本公开一个实施例中,所述语义识别模型包括语义判断子模型;
所述识别子模块5033,用于:
通过所述语义判断子模型,并基于所述待识别语音的上下文,对所述语义文本进行完整度识别。
在本公开一个实施例中,所述语义识别装置500还包括:
训练模块504,用于基于训练数据集,预训练所述语义判断子模型;
其中,所述训练数据集包括完整文本和不完整文本。
在本公开一个实施例中,所述训练模块504,用于:
基于数据字典,将所述完整文本和/或不完整文本转换成数字序列;
对所述数字序列进行编码,获得编码序列;
基于所述编码序列,预训练所述语义判断子模型。
语义识别装置500能够实现图1的方法实施例中电子设备实现的各个过程,为避免重复,这里不再赘述。
本公开实施例的语义识别装置500,通过确定电子设备的工作状态;根据所述工作状态确定语义识别模型;利用所述语义识别模型识别接收到的待识别语音。通过根据电子设备的工作状态,确定对应的语义识别模型,并根据语义识别模型对待识别语音进行识别,由于对待识别语音进行识别的语义识别模型更有针对性,可提高识别的准确率。
图6为实现本公开各个实施例的一种电子设备的硬件结构示意图,如图6所示,该电子设备600包括但不限于:射频单元601、网络模块602、音频输出单元603、输入单元606、传感器605、显示单元606、用户输入单元607、接口单元608、存储器609、处理器610、以及电源611等部件。本领域技术人员可以理解,图6中示出的电子设备结构并不构成对电子设备的限定,电子设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。在本公开实施例中,电子设备包括但不限于手机、平板电脑、笔记本电脑、掌上电脑、车载终端、可穿戴设备、以及计步器等。
其中,处理器610,用于执行确定电子设备的工作状态;
根据所述工作状态确定语义识别模型;
利用所述语义识别模型识别接收到的待识别语音。
在本公开一个实施例中,处理器610,还用于执行:对所述待识别语音进行语音活动检测,得到待识别话音;
对所述待识别话音进行语义识别,得到语义文本;
对所述语义文本进行完整度识别;
在所述语义文本为完整文本的情况下,将所述语义文本确定为待识别语音的识别结果;
在所述语义文本为不完整文本的情况下,拼接所述待识别语音和后续接收到的待识别语音,得到拼接语音;将所述拼接语音作为待识别语音,并返回执行对所述待识别语音进行语音活动检测,得到待识别话音的步骤,直至所述拼接语音的语义文本为完整文本。
在本公开一个实施例中,所述语义识别模型包括语义判断子模型;
处理器610,还用于执行:通过所述语义判断子模型,并基于所述待识别语音的上下文,对所述语义文本进行完整度识别。
在本公开一个实施例中,处理器610,还用于执行:基于训练数据集,预训练所述语义判断子模型;
其中,所述训练数据集包括完整文本和不完整文本。
在本公开一个实施例中,处理器610,还用于执行:基于数据字典,将所述完整文本和/或不完整文本转换成数字序列;
对所述数字序列进行编码,获得编码序列;
基于所述编码序列,预训练所述语义判断子模型。
电子设备600能够实现前述实施例中电子设备实现的各个过程,为避免重复,这里不再赘述。
本公开实施例的电子设备600,通过确定电子设备的工作状态;根据所述工作状态确定语义识别模型;利用所述语义识别模型识别接收到的待识别语音。通过根据电子设备的工作状态,确定对应的语义识别模型,并根据语义识别模型对待识别语音进行识别,由于对待识别语音进行识别的语义识别模型更有针对性,可提高识别的准确率。
应理解的是,本公开实施例中,射频单元601可用于收发信息或通话过程中,信号的接收和发送,具体的,将来自基站的下行数据接收后,给处理器610处理;另外,将上行的数据发送给基站。通常,射频单元601包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。此外,射频单元601还可以通过无线通信系统与网络和其他设备通信。
电子设备通过网络模块602为用户提供了无线的宽带互联网访问,如帮助用户收发电子邮件、浏览网页和访问流式媒体等。
音频输出单元603可以将射频单元601或网络模块602接收的或者在存储器609中存储的音频数据转换成音频信号并且输出为声音。而且,音频输出单元603还可以提供与电子设备600执行的特定功能相关的音频输出(例如,呼叫信号接收声音、消息接收声音等等)。音频输出单元603包括扬声器、蜂鸣器以及受话器等。
输入单元604用于接收音频或视频信号。输入单元604可以包括图形处理器(Graphics Processing Unit,GPU)6041和麦克风6042,图形处理器6041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示单元606上。经图形处理器6041处理后的图像帧可以存储在存储器609(或其它存储介质)中或者经由射频单元601或网络模块602进行发送。麦克风6042可以接收声音,并且能够将这样的声音处理为音频数据。处理后的音频数据可以在电话通话模式的情况下转换为可经由射频单元601发送到移动通信基站的格式输出。
电子设备600还包括至少一种传感器605,比如光传感器、运动传感器以及其他传感器。具体地,光传感器包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板6061的亮度,接近传感器可在电子设备600移动到耳边时,关闭显示面板6061和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别电子设备姿态(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;传感器605还可以包括指纹传感器、压力传感器、虹膜传感器、分子传感器、陀螺仪、气压计、湿度计、温度计、红外线传感器等,在此不再赘述。
显示单元606用于显示由用户输入的信息或提供给用户的信息。显示单元606可包括显示面板6061,可以采用液晶显示器(Liquid Crystal Display,LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板6061。
用户输入单元607可用于接收输入的数字或字符信息,以及产生与电子设备的用户设置以及功能控制有关的键信号输入。具体地,用户输入单元607包括触控面板6071以及其他输入设备6072。触控面板6071,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板6071上或在触控面板6071附近的操作)。触控面板6071可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器610,接收处理器610发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板6071。除了触控面板6071,用户输入单元607还可以包括其他输入设备6072。具体地,其他输入设备6072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆,在此不再赘述。
进一步的,触控面板6071可覆盖在显示面板6061上,当触控面板6071检测到在其上或附近的触摸操作后,传送给处理器610以确定触摸事件的类型,随后处理器610根据触摸事件的类型在显示面板6061上提供相应的视觉输出。虽然在图6中,触控面板6071与显示面板6061是作为两个独立的部件来实现电子设备的输入和输出功能,但是在某些实施例中,可以将触控面板6071与显示面板6061集成而实现电子设备的输入和输出功能,具体此处不做限定。
接口单元608为外部装置与电子设备600连接的接口。例如,外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。接口单元608可以用于接收来自外部装置的输入(例如,数据信息、电力等等)并且将接收到的输入传输到电子设备600内的一个或多个元件或者可以用于在电子设备600和外部装置之间传输数据。
存储器609可用于存储软件程序以及各种数据。存储器609可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器609可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
处理器610是电子设备的控制中心,利用各种接口和线路连接整个电子设备的各个部分,通过运行或执行存储在存储器609内的软件程序和/或模块,以及调用存储在存储器609内的数据,执行电子设备的各种功能和处理数据,从而对电子设备进行整体监控。处理器610可包括一个或多个处理单元;优选的,处理器610可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器610中。
电子设备600还可以包括给各个部件供电的电源611(比如电池),优选的,电源611可以通过电源管理系统与处理器610逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
另外,电子设备600包括一些未示出的功能模块,在此不再赘述。
优选的,本公开实施例还提供一种电子设备,包括处理器610,存储器609,存储在存储器609上并可在所述处理器610上运行的计算机程序,该计算机程序被处理器610执行时实现上述语义识别方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
本公开实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述语义识别方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机可读存储介质,如只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本公开的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本公开各个实施例所述的方法。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
上面结合附图对本公开的实施例进行了描述,但是本公开并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本公开的启示下,在不脱离本公开宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本公开的保护之内。

Claims (10)

1.一种语义识别方法,应用于电子设备,其特征在于,包括:
确定电子设备的工作状态;
根据所述工作状态确定语义识别模型;
利用所述语义识别模型识别接收到的待识别语音;
所述利用所述语义识别模型识别接收到的待识别语音,包括:
对所述待识别语音进行语音活动检测,得到待识别话音;
对所述待识别话音进行语义识别,得到语义文本;
对所述语义文本进行完整度识别;
在所述语义文本为完整文本的情况下,将所述语义文本确定为待识别语音的识别结果;
在所述语义文本为不完整文本的情况下,拼接所述待识别语音和后续接收到的待识别语音,得到拼接语音;将所述拼接语音作为待识别语音,并返回执行对所述待识别语音进行语音活动检测,得到待识别话音的步骤,直至所述拼接语音的语义文本为完整文本;
所述对所述待识别语音进行语音活动检测,得到待识别话音,包括:
采用预设条件对待识别语音进行截取,获得待识别话音,所述预设条件包括每隔预设时间段;
所述电子设备的工作状态包括播放状态或等待接收用户回答状态,其中播放状态对应播放场景语义识别模型,等待接收用户回答状态对应提问场景语义识别模型。
2.根据权利要求1所述的方法,其特征在于,所述语义识别模型包括语义判断子模型;
所述对所述语义文本进行完整度识别,包括:
通过所述语义判断子模型,并基于所述待识别语音的上下文,对所述语义文本进行完整度识别。
3.根据权利要求2中所述的方法,其特征在于,所述方法还包括:
基于训练数据集,预训练所述语义判断子模型;
其中,所述训练数据集包括完整文本和不完整文本。
4.根据权利要求3所述的方法,其特征在于,所述基于训练数据集,预训练所述语义判断子模型,包括:
基于数据字典,将所述完整文本和/或不完整文本转换成数字序列;
对所述数字序列进行编码,获得编码序列;
基于所述编码序列,预训练所述语义判断子模型。
5.一种语义识别装置,集成于电子设备,其特征在于,包括:
第一确定模块,用于确定电子设备的工作状态;
第二确定模块,用于根据所述工作状态确定语义识别模型;
识别模块,用于利用所述语义识别模型识别接收到的待识别语音;
所述识别模块,包括:
第一获取子模块,用于对所述待识别语音进行语音活动检测,得到待识别话音;
第二获取子模块,用于对所述待识别话音进行语义识别,得到语义文本;
识别子模块,用于对所述语义文本进行完整度识别;
第一确定子模块,用于在所述语义文本为完整文本的情况下,将所述语义文本确定为待识别语音的识别结果;
拼接子模块,用于在所述语义文本为不完整文本的情况下,拼接所述待识别语音和后续接收到的待识别语音,得到拼接语音;
第二确定子模块,用于将所述拼接语音作为待识别语音,并触发所述第一获取子模块,直至所述拼接语音的语义文本为完整文本;
所述第一获取子模块具体用于采用预设条件对待识别语音进行截取,获得待识别话音,所述预设条件包括每隔预设时间段;
所述电子设备的工作状态包括播放状态或等待接收用户回答状态,其中播放状态对应播放场景语义识别模型,等待接收用户回答状态对应提问场景语义识别模型。
6.根据权利要求5所述的装置,其特征在于,所述语义识别模型包括语义判断子模型;
所述识别子模块,用于:
通过所述语义判断子模型,并基于所述待识别语音的上下文,对所述语义文本进行完整度识别。
7.根据权利要求6中所述的装置,其特征在于,所述装置还包括:
训练模块,用于基于训练数据集,预训练所述语义判断子模型;
其中,所述训练数据集包括完整文本和不完整文本。
8.根据权利要求7所述的装置,其特征在于,所述训练模块,用于:
基于数据字典,将所述完整文本和/或不完整文本转换成数字序列;
对所述数字序列进行编码,获得编码序列;
基于所述编码序列,预训练所述语义判断子模型。
9.一种电子设备,其特征在于,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至4中任一项所述的语义识别方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至4中任一项所述的语义识别方法的步骤。
CN202010206165.XA 2020-03-23 2020-03-23 语义识别方法、装置及电子设备 Active CN111402866B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010206165.XA CN111402866B (zh) 2020-03-23 2020-03-23 语义识别方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010206165.XA CN111402866B (zh) 2020-03-23 2020-03-23 语义识别方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN111402866A CN111402866A (zh) 2020-07-10
CN111402866B true CN111402866B (zh) 2024-04-05

Family

ID=71429118

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010206165.XA Active CN111402866B (zh) 2020-03-23 2020-03-23 语义识别方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN111402866B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111883112B (zh) * 2020-07-27 2022-03-18 中国平安人寿保险股份有限公司 基于多模式标识的语义识别方法、装置和计算机设备
CN112053687A (zh) * 2020-07-31 2020-12-08 出门问问信息科技有限公司 一种语音处理方法、装置、计算机可读存储介质及设备
CN112183114B (zh) * 2020-08-10 2024-05-14 招联消费金融股份有限公司 模型训练、语义完整性识别方法和装置
CN112489642B (zh) * 2020-10-21 2024-05-03 深圳追一科技有限公司 控制语音机器人响应的方法、装置、设备和存储介质
CN112101045B (zh) * 2020-11-02 2021-12-14 北京淇瑀信息科技有限公司 一种多模态语义完整性识别方法、装置及电子设备
CN112530424A (zh) * 2020-11-23 2021-03-19 北京小米移动软件有限公司 语音处理方法及装置、电子设备、存储介质
CN112700769A (zh) * 2020-12-26 2021-04-23 科大讯飞股份有限公司 一种语义理解方法、装置、设备以及计算机可读存储介质
CN113593553B (zh) * 2021-07-12 2022-05-24 深圳市明源云客电子商务有限公司 语音识别方法、装置、语音管理服务器以及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107146602A (zh) * 2017-04-10 2017-09-08 北京猎户星空科技有限公司 一种语音识别方法、装置及电子设备
CN107644642A (zh) * 2017-09-20 2018-01-30 广东欧珀移动通信有限公司 语义识别方法、装置、存储介质及电子设备
CN108345612A (zh) * 2017-01-25 2018-07-31 北京搜狗科技发展有限公司 一种问题处理方法和装置、一种用于问题处理的装置
CN108388559A (zh) * 2018-02-26 2018-08-10 中译语通科技股份有限公司 地理空间应用下的命名实体识别方法及系统、计算机程序
WO2019192250A1 (zh) * 2018-04-04 2019-10-10 科大讯飞股份有限公司 语音唤醒方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190325898A1 (en) * 2018-04-23 2019-10-24 Soundhound, Inc. Adaptive end-of-utterance timeout for real-time speech recognition

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108345612A (zh) * 2017-01-25 2018-07-31 北京搜狗科技发展有限公司 一种问题处理方法和装置、一种用于问题处理的装置
CN107146602A (zh) * 2017-04-10 2017-09-08 北京猎户星空科技有限公司 一种语音识别方法、装置及电子设备
CN107644642A (zh) * 2017-09-20 2018-01-30 广东欧珀移动通信有限公司 语义识别方法、装置、存储介质及电子设备
CN108388559A (zh) * 2018-02-26 2018-08-10 中译语通科技股份有限公司 地理空间应用下的命名实体识别方法及系统、计算机程序
WO2019192250A1 (zh) * 2018-04-04 2019-10-10 科大讯飞股份有限公司 语音唤醒方法及装置

Also Published As

Publication number Publication date
CN111402866A (zh) 2020-07-10

Similar Documents

Publication Publication Date Title
CN111402866B (zh) 语义识别方法、装置及电子设备
KR102270394B1 (ko) 이미지를 인식하기 위한 방법, 단말, 및 저장 매체
CN110096580B (zh) 一种faq对话方法、装置及电子设备
CN110570840B (zh) 一种基于人工智能的智能设备唤醒方法和装置
CN108334196B (zh) 一种文件处理方法及移动终端
CN111739517B (zh) 语音识别方法、装置、计算机设备及介质
CN107734170B (zh) 一种通知消息处理方法、移动终端及穿戴设备
CN110097872B (zh) 一种音频处理方法及电子设备
CN111401463B (zh) 检测结果输出的方法、电子设备及介质
CN108668024B (zh) 一种语音处理方法及终端
CN112820299A (zh) 声纹识别模型训练方法、装置及相关设备
CN110808019A (zh) 一种歌曲生成方法及电子设备
CN109949809B (zh) 一种语音控制方法及终端设备
WO2022227507A1 (zh) 唤醒程度识别模型训练方法及语音唤醒程度获取方法
CN114333774B (zh) 语音识别方法、装置、计算机设备及存储介质
CN111292727B (zh) 一种语音识别方法及电子设备
CN110826098B (zh) 一种信息处理方法及电子设备
CN110880330A (zh) 音频转换方法及终端设备
CN110674294A (zh) 一种相似度确定方法及电子设备
CN111416955B (zh) 一种视频通话方法及电子设备
CN111723783B (zh) 一种内容识别方法和相关装置
CN107645604B (zh) 一种通话处理方法及移动终端
CN112464831A (zh) 视频分类方法、视频分类模型的训练方法及相关设备
CN107861955B (zh) 一种翻译方法和移动终端
CN114155859B (zh) 检测模型训练方法、语音对话检测方法及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant