CN116868266A - 支持语音识别的电子设备及其操作方法 - Google Patents

支持语音识别的电子设备及其操作方法 Download PDF

Info

Publication number
CN116868266A
CN116868266A CN202280013646.6A CN202280013646A CN116868266A CN 116868266 A CN116868266 A CN 116868266A CN 202280013646 A CN202280013646 A CN 202280013646A CN 116868266 A CN116868266 A CN 116868266A
Authority
CN
China
Prior art keywords
sentence
electronic device
time
utterance
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202280013646.6A
Other languages
English (en)
Inventor
崔明用
戈达瓦里·苏达卡尔·拉奥
兰詹·库马尔·萨马尔
金大山
吴爀
崔俊劝
普里亚达尔希尼·帕内曼格洛尔·派尔
拉胡尔·库马尔
维耶塔·古尔
朴成宰
柳承范
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of CN116868266A publication Critical patent/CN116868266A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • G10L15/05Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/227Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Signal Processing (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Machine Translation (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本公开的各个实施例涉及一种在能够执行自然语言处理的电子设备中支持自动语音识别的装置及其操作方法。为此,所述电子设备可以基于从输入音频信号顺序地识别的一个或更多个部分文本,来识别从麦克风输入的音频信号的语音类型。所述电子设备能够基于语音类型自适应地确定保持时间,并且通过应用所确定的保持时间来检测所述音频信号的语音结束。

Description

支持语音识别的电子设备及其操作方法
技术领域
本公开涉及一种在能够执行自然语言处理的电子设备中支持自动语音识别(ASR)的装置及其操作方法。
背景技术
人工智能技术已经发展到足以提供以类似人类的方式说话或显示文本的模型。其示例可以是“聊天机器人(chatbot)”或“聊天机器人(chatterbot)”。聊天机器人(chatbot/chatterbot)可以是计算机程序,该计算机程序被设计成通过集成语音识别技术基于通过语音与人对话来执行指定任务。
人工智能技术可以基于“自然语言处理”技术,例如,作为用于理解人类语音的语音识别技术。自然语言处理技术可以在语音识别的前提下实现。自然语言处理技术可以包括允许机器计算机理解人类语言的技术。“自然语言”可以指人类长期使用时自然产生的语言。与此相反,可以有“机器语言”或“编程语言”。“机器语言”或“编程语言”可以指计算机语言。例如,用于编码的计算机语言已被开发成与自然语言具有许多类似性。然而,仍可能需要自然语言处理来输入指令以便计算机能够理解。
通常,自然语言处理可以通过自然语言分析、自然语言理解和/或自然语言生成操作来执行。自然语言分析可以对应于根据语法分析自然语言的操作。自然语言理解可以对应于计算机根据用自然语言给出的输入来执行指定动作的操作。自然语言生成可以对应于将表格或视频的内容转换成人类可理解的自然语言的操作。
发明内容
技术问题
电子设备可以采用自然语言分析技术并支持自动语音识别。自然语言可以具有若干语法单元,诸如词形、句法和/或句子。所述自然语言分析技术是形态学分析和句法分析中的一者,并且可以被简单地分类为用于基于句子的含义来解释该句子的语义分析和用于确定在实际中在句子中隐含哪种含义的语用分析。
因此,对于自然语言分析,支持自动语音识别的电子设备将支持从用户话语输入的音频信号获得语音持续时间和停顿持续时间,并基于获得的结果检测话语结束的结束。
问题的解决方案
根据本公开的示例实施例,一种电子设备可以包括:麦克风,所述麦克风被配置成将通过话语从外部施加的信号转换为电音频信号并输出;存储器;以及至少一个处理器,所述至少一个处理器电耦接到所述麦克风和所述存储器。所述存储器可以存储有指令,所述指令在被执行时使所述至少一个处理器:基于从经由所述麦克风输入的输入音频信号顺序地识别的一个或更多个部分文本识别所述音频信号的话语类型,基于所识别的话语类型来自适应地确定拖尾时间,以及通过应用所述拖尾时间来检测所述音频信号的所述话语的结束。所述输入音频信号的话语类型可以对应于完整句子、不完整句子和模糊句子中的一者。所述完整句子可以是如下文本:在该文本中,指示执行操作的指令基于自然语言理解是可识别的。所述不完整句子可以是如下文本:在该文本中,指示执行操作的指令基于自然语言理解是不可识别的。所述模糊句子可以是未被分类为所述完整句子或所述不完整句子的文本。
根据本公开的示例实施例,一种操作电子设备的方法可以包括:基于从输入音频信号顺序地识别的一个或更多个部分文本来识别所述音频信号的话语类型,所述音频信号是从通过话语从外部施加的信号转换而来的电信号;基于所识别的话语类型来自适应地确定拖尾时间;以及通过应用所述拖尾时间来检测所述音频信号的所述话语的结束。所述输入音频信号的话语类型可以对应于完整句子、不完整句子和模糊句子中的一者。所述完整句子可以是如下文本:在该文本中,指示执行操作的指令基于自然语言理解是可识别的。所述不完整句子可以是如下文本:在该文本中,指示执行操作的指令基于自然语言理解是不可识别的。所述模糊句子可以是未被分类为所述完整句子或所述不完整句子的文本。
此外,在本公开中描述的任何实施例的一个或更多个选择的特征可以与本文中描述的任何其他实施例的一个或更多个选择的特征组合,假定这些特征的替代组合至少部分地减轻本公开中讨论的一个或更多个技术问题,或者至少部分地减轻本领域技术人员从本公开可辨别的技术问题,并且进一步假定由此形成的实施例特征的特定组合或排列将不会被本领域技术人员理解为不相容的。
在可能的情况下,本公开的任何描述的示例实施方式中的两个或更多个物理上不同的部件可以替代地集成到单个部件中,只要由此形成的单个部件执行相同的功能。相反,在适当的情况下,本公开中描述的任何实施例的单个部件可以替代地实现为两个或更多个不同的部件以实现相同的功能。
本公开的各个示例实施例可以至少部分地减轻或消除与现有技术相关联的所述问题和/或缺点中的至少一者。某些实施例可以提供以下描述的优点中的至少一者。
本发明的有益效果
可以提供本公开的各个实施例以解决上述问题并且至少提供以下描述的优点。
本公开的实施例提供了一种基于部分文本自适应地调整用于确定话语的结束的拖尾时间的电子设备及其操作方法。
本公开的实施例提供了一种响应于用户话语来识别用户的上下文以确定语声活动结束时间点的电子设备及其操作方法。
附图说明
从以下结合附图的详细描述中,某些实施例的以上和其他方面、特征和优点将更加容易理解。
图1是图示了根据各个实施例的网络环境中的电子设备的框图。
图2图示了根据各个实施例的可以用作电子设备中的语音识别的基本单元的一个语声活动持续时间(VAD);
图3图示了根据实施例的在电子设备中检测语声活动结束时间点的示例;
图4是根据各个实施例的在电子设备中支持语音识别的框图;
图5图示了根据实施例的用于在电子设备中执行基于语音识别的操作的控制流程;
图6a、图6b和图6c图示了根据各个实施例的确定每个话语类型的拖尾时间的示例;
图7a、图7b和图7c图示了根据各个实施例的确定电子设备中的每个话语类型的拖尾时间的示例;
图8图示了根据实施例的电子设备中基于话语类型的操作的示例;
图9图示了根据实施例的电子设备中基于话语类型的操作的另一示例;
图10图示了根据实施例的在电子设备中执行基于语音识别的操作的配置;
图11图示了根据实施例的在电子设备中执行语音识别的配置;
图12图示了根据实施例的用于在电子设备中检测用户话语的结束的控制流程;
图13图示了根据实施例的在电子设备中执行语音识别的配置;
图14图示了根据实施例的用于在电子设备中支持语音识别的模型学习的流程;
图15图示了根据实施例的用于电子设备中的语音识别的深度学习模型的数据格式;
图16、图17和图18图示了根据实施例的学习之后的推理过程的示例,以应对电子设备中的实时环境;
具体实施方式
在下文中,将参考附图更详细地描述各个示例实施例。在下面的描述中,提供了许多具体细节以陈述对本公开的理解。因此,本领域普通技术人员将认识到,在不脱离本公开的范围和精神的情况下,可以对本文描述的各个实施例进行各种改变和修改。此外,为了清楚和简明,可以省略对公知功能和结构的描述。
图1是图示了根据各个实施例的网络环境100中的电子设备101的框图。
参考图1,网络环境100中的电子设备101可以经由第一网络198(例如,短距离无线通信网络)与电子设备102通信,或者经由第二网络199(例如,长距离无线通信网络)与电子设备104或服务器108中的至少一者通信。根据实施例,电子设备101可以经由服务器108与电子设备104通信。根据实施例,电子设备101可以包括处理器120、存储器130、输入模块150、声音输出模块155、显示模块160、音频模块170、传感器模块176、接口177、连接端子178、触觉模块179、相机模块180、功率管理模块188、电池189、通信模块190、用户识别模块(SIM)196或天线模块197。在一些实施例中,可以从电子设备101中省略这些部件中的至少一者(例如,连接端子178),或者可以在电子设备101中添加一个或更多个其他部件。在一些实施例中,一些部件(例如,传感器模块176、相机模块180或天线模块197)可以实现为单个部件(例如,显示模块160)。
处理器120可以执行例如软件(例如,程序140)以控制与处理器120耦接(couple)的电子设备101的至少一个其他部件(例如,硬件或软件部件),并且可以执行各种数据处理或计算。根据实施例,作为数据处理或计算的至少一部分,处理器120可以将从另一部件(例如,传感器模块176或通信模块190)接收的命令或数据存储在易失性存储器132中,处理存储在易失性存储器132中的命令或数据,并将所得数据存储在非易失性存储器134中。根据实施例,处理器120可以包括主处理器121(例如,中央处理单元(CPU)或应用处理器(AP))或辅助处理器123(例如,图形处理单元(GPU)、神经处理单元(NPU)、图像信号处理器(ISP)、传感器集线器处理器或通信处理器(CP)),该辅助处理器123可以独立于或结合主处理器121来操作。例如,当电子设备101包括主处理器121和辅助处理器123时,辅助处理器123可以适于消耗比主处理器121更少的功率,或者专用于指定功能。辅助处理器123可以实现为与主处理器121分离或作为主处理器121的一部分。
辅助处理器123可以在主处理器121处于非活动(例如,睡眠)状态时代替主处理器121,或者在主处理器121处于活动状态(例如,执行应用)时与主处理器121一起控制与电子设备101的部件中的至少一个部件(例如,显示模块160、传感器模块176或通信模块190)相关的至少一些功能或状态。根据实施例,辅助处理器123(例如,图像信号处理器或通信处理器)可以实现为功能上与辅助处理器123相关的另一部件(例如,相机模块180或通信模块190)的一部分。根据实施例,辅助处理器123(例如,神经处理单元)可以包括为人工智能模型处理指定的硬件结构。人工智能模型可以通过机器学习生成。这种学习可以例如由执行人工智能的电子设备101或经由单独的服务器(例如,服务器108)来执行。学习算法可以包括但不限于例如监督学习、无监督学习、半监督学习或强化学习。人工智能模型可以包括多个人工神经网络层。人工神经网络可以是深度神经网络(DNN)、卷积神经网络(CNN)、递归神经网络(RNN)、受限玻尔兹曼机(RBM)、深度信念网络(DBN)、双向递归深度神经网络(BRDNN)、深度Q网络或其中两个或更多个的组合,但不限于此。人工智能模型可以附加地或替代地包括不同于硬件结构的软件结构。
存储器130可以存储由电子设备101的至少一个部件(例如,处理器120或传感器模块176)使用的各种数据。各种数据可以包括例如软件(例如,程序140)和用于与其相关的命令的输入数据或输出数据。存储器130可以包括易失性存储器132或非易失性存储器134。
程序140可以作为软件存储在存储器130中,并且可以包括例如操作系统(OS)142、中间件144或应用146。
输入模块150可以从电子设备101的外部(例如,用户)接收将由电子设备101的另一部件(例如,处理器120)使用的命令或数据。输入模块150可以包括例如麦克风、鼠标、键盘、键(例如按钮)或数字笔(例如触控笔)。
声音输出模块155可以将声音信号输出到电子设备101的外部。声音输出模块155可以包括例如扬声器或接收器。扬声器可以用于一般目的,如播放多媒体或播放录音。接收器可以用于接收呼入呼叫。根据实施例,接收器可以实现为与扬声器分离或作为扬声器的一部分。
显示模块160可以可视地向电子设备101的外部(例如,用户)提供信息。显示模块160可以包括例如显示器、全息设备或投影仪和控制显示器、全息设备和投影仪中的相应的一者的控制电路系统。根据实施例,显示模块160可以包括适于检测触摸的触摸传感器,或适于测量由触摸引起的力的强度的压力传感器。
音频模块170可以将声音转换为电信号,反之亦然。根据实施例,音频模块170可以经由输入模块150获得声音,或者经由直接(例如有线地)或无线地与电子设备101耦接的外部电子设备(例如,电子设备102)的声音输出模块155或耳机输出声音。
传感器模块176可以检测电子设备101的操作状态(例如,功率或温度)或电子设备101外部的环境状态(例如,用户的状态),然后生成对应于检测到的状态的电信号或数据值。根据实施例,传感器模块176可以包括例如手势传感器、陀螺仪传感器、大气压力传感器、磁传感器、加速度传感器、握持传感器、接近传感器、颜色传感器、红外(IR)传感器、生物特征传感器、温度传感器、湿度传感器或照度传感器。
接口177可以支持用于将电子设备101直接(例如,有线地)或无线地与外部电子设备(例如,电子设备102)耦接的一个或更多个指定协议。根据实施例,接口177可以包括例如高清晰度多媒体接口(HDMI)、通用串行总线(USB)接口、安全数字(SD)卡接口或音频接口。
连接端子178可以包括连接器,电子设备101可以经由该连接器与外部电子设备(例如,电子设备102)物理连接。根据实施例,连接端子178可以包括例如HDMI连接器、USB连接器、SD卡连接器或音频连接器(例如,耳机连接器)。
触觉模块179可以将电信号转换成机械刺激(例如,振动或运动)或电刺激,该机械刺激或电刺激可以由用户经由他的触觉感觉或动觉感觉来识别。根据实施例,触觉模块179可以包括例如电动机、压电元件或电刺激器。
相机模块180可以捕获静止图像或运动图像。根据实施例,相机模块180可以包括一个或更多个透镜、图像传感器、图像信号处理器或闪光灯。
功率管理模块188可以管理提供给电子设备101的功率。根据实施例,功率管理模块188可以实现为例如功率管理集成电路(PMIC)的至少一部分。
电池189可以向电子设备101的至少一个部件供电。根据实施例,电池189可以包括例如不可再充电的一次电池、可再充电的二次电池或燃料电池。
通信模块190可以支持在电子设备101和外部电子设备(例如,电子设备102、电子设备104或服务器108)之间建立直接(例如,有线)通信信道或无线通信信道,并且经由建立的通信信道执行通信。通信模块190可以包括可独立于处理器120(例如,应用处理器(AP))操作并支持直接(例如,有线)通信或无线通信的一个或更多个通信处理器。根据实施例,通信模块190可以包括无线通信模块192(例如,蜂窝通信模块、短距离无线通信模块或全球导航卫星系统(GNSS)通信模块)或有线通信模块194(例如,局域网(LAN)通信模块或电力线通信(PLC)模块)。这些通信模块中的对应的一者可以经由第一网络198(例如,短距离通信网络,如蓝牙TM、无线保真(Wi-Fi)直连或红外数据关联(IrDA))或第二网络199(例如,长距离通信网络,如传统蜂窝网络、5G网络、下一代通信网络、因特网或计算机网络(例如,LAN或广域网(WAN))与外部电子设备通信。这些各种类型的通信模块可以实现为单个部件(例如,单个芯片),或者可以实现为彼此分离的多个部件(例如,多个芯片)。无线通信模块192可以使用存储在用户识别模块196中的用户信息(例如,国际移动用户身份(IMSI))来识别和认证通信网络(如第一网络198或第二网络199)中的电子设备101。
无线通信模块192可以支持4G网络之后的5G网络和下一代通信技术,例如新无线电(NR)接入技术。NR接入技术可以支持增强型移动宽带(eMBB)、大规模机器类型通信(mMTC)或高可靠和低延迟通信(URLLC)。无线通信模块192可以支持高频带(例如,毫米波带)以实现例如高数据传输速率。无线通信模块192可以支持用于确保高频带上的性能的各种技术,例如波束成形、大规模多输入多输出(大规模MIMO)、全维MIMO(FD-MIMO)、阵列天线、模拟波束成形或大规模天线。无线通信模块192可以支持在电子设备101、外部电子设备(例如,电子设备104)或网络系统(例如,第二网络199)中指定的各种要求。根据实施例,无线通信模块192可以支持用于实施eMBB的峰值数据速率(例如,20Gbps或更高),用于实施mMTC的丢失覆盖(例如,164dB或更低),或用于实施URLLC的U平面延迟(例如,对于下行链路(DL)和上行链路(UL)中的每一者0.5ms或更低,或1ms或更低的往返行程)。
天线模块197可以向电子设备101的外部(例如,外部电子设备)发送信号或功率或者从电子设备101的外部(例如,外部电子设备)接收信号或功率。根据实施例,天线模块197可以包括天线,该天线包括辐射元件,该辐射元件包括形成在基板(例如,印刷电路板(PCB))中或基板上的导电材料或导电图案。根据实施例,天线模块197可以包括多个天线(例如,阵列天线)。在这种情况下,例如,通信模块190(例如,无线通信模块192)可以从多个天线中选择适合于在如第一网络198或第二网络199的通信网络中使用的通信方案的至少一个天线。然后可以经由选择的至少一个天线在通信模块190和外部电子设备之间发送或接收信号或功率。根据实施例,除了辐射元件之外的另一部件(例如,射频集成电路(RFIC))可以另外形成为天线模块197的一部分。
根据各个实施例,天线模块197可以形成毫米波天线模块。根据实施例,毫米波天线模块可以包括印刷电路板、布置在印刷电路板的第一表面(例如,底表面)上或邻近第一表面并且能够支持指定高频带(例如,毫米波带)的RFIC,以及布置在印刷电路板的第二表面(例如,顶表面或侧表面)上或者邻近第二表面并且能够发射或接收指定高频带的信号的多个天线(例如,阵列天线)。
上述部件中的至少一些部件可以经由外围间通信方案(例如,总线、通用输入和输出(GPIO)、串行外围接口(SPI)或移动工业处理器接口(MIPI))相互耦接并在其间传送信号(例如,命令或数据)。
根据实施例,可以经由与第二网络199耦接的服务器108在电子设备101和外部电子设备104之间发送或接收命令或数据。电子设备102或104中的每一者可以是与电子设备101相同类型或不同类型的设备。根据实施例,将要在电子设备101处执行的所有或一些操作可以在外部电子设备102、104或108中的一者或更多者处执行。例如,如果电子设备101应当自动执行功能或服务,或者响应于来自用户或另一设备的请求,则电子设备101可以请求一个或更多个外部电子设备执行功能或服务的至少一部分,而不是电子设备101执行功能或服务,或者除了执行功能或服务之外还请求一个或更多个外部电子设备执行功能或服务的至少一部分。接收请求的一个或更多个外部电子设备可以执行请求的功能或服务的至少一部分,或者与该请求相关的额外功能或额外服务,并且将执行的结果传送到电子设备101。电子设备101可以在对结果进行或不进行进一步处理的情况下提供该结果作为对该请求的回复的至少一部分。为此,例如可以使用云计算、分布式计算、移动边缘计算(MEC)或客户端-服务器计算技术。电子设备101可以使用例如分布式计算或移动边缘计算来提供超低延迟服务。在另一实施例中,外部电子设备104可以包括物联网(IoT)设备。服务器108可以是使用机器学习和/或神经网络的智能服务器。根据实施例,外部电子设备104或服务器108可以被包括在第二网络199中。电子设备101可以被应用于基于5G通信技术或IoT相关技术的智能服务(例如,智能家居、智能城市、智能汽车或医疗保健)。
根据各个实施例的电子设备可以是各种类型的电子设备中的一个。电子设备可以包括例如便携式通信设备(例如智能电话)、计算机设备、便携式多媒体设备、便携式医疗设备、相机、可穿戴设备或家用电器。根据本公开的实施例,电子设备不限于上述那些。
应了解,本公开的各个实施例及其中使用的术语并不旨在将本文中阐述的技术特征限制于特定实施例,并且包括对相应的实施例的各种改变、等效物或替代。关于附图的描述,类似的附图标记可以用于表示相似或相关的元件。应当理解,对应于项的名词的单数形式可以包括一个或更多个事物,除非相关上下文另外清楚地指出。如本文所用,如“A或B”、“A和B中的至少一者”、“A或B中的至少一者”、“A、B或C”、“A、B和C中的至少一者”和“A、B或C中的至少一者”的此类短语中的每一者可以包括在对应的短语中一起列举的项中的任一者或所有可能的组合。如本文所用,如“第一(1st)”和“第二(2nd)”或“第一(first)”和“第二(second)”的术语可以用于简单地区分对应的部件与另一部件,并且不在其他方面(例如,重要性或次序)限制部件。应当理解,如果使用或不使用术语“可操作地”或“通信地”将元件(例如,第一元件)称为与另一元件(例如,第二元件)“耦接”、“耦接到”、“连接”或“连接到”,则该元件可以直接地(例如,有线地)、无线地或经由第三元件与另一元件耦接。
如结合本公开的各个实施例使用的,术语“模块”可以包括以硬件、软件或固件或其任何组合实现的单元,并且可以与其他术语(例如,“逻辑”、“逻辑块”、“部分”或“电路系统”)互换地使用。模块可以是适于执行一个或更多个功能的单个集成部件或其最小单元或部分。例如,根据实施例,模块可以以专用集成电路(ASIC)的形式实现。
本文阐述的各个实施例可以被实现为包括存储在可由机器(例如,电子设备101)读取的存储介质(例如,内部存储器136或外部存储器138)中的一个或更多个指令的软件(例如,程序140)。例如,机器(例如,电子设备101)的处理器(例如,处理器120)可以调用存储在存储介质中的一个或更多个指令中的至少一者,并在处理器的控制下使用或不使用一个或更多个其他部件的情况下执行该指令。这允许机器根据调用的至少一个指令来执行至少一个功能。该一个或更多个指令可以包括由编译器生成的代码或可由解释器执行的代码。机器可读存储介质可以以非瞬态存储介质的形式提供。其中,“非瞬态”存储介质是有形的设备,并且可以不包括信号(例如,电磁波),但是该术语不区分数据被半永久地存储在存储介质中和数据被临时存储在存储介质中。
根据实施例,可以在计算机程序产品中包括和提供一种根据本公开的各个实施例的方法。计算机程序产品可以作为产品在卖方和买方之间进行交易。计算机程序产品可以以机器可读存储介质(例如,光盘只读存储器(CD-ROM))的形式分发,或者经由应用商店(例如,PlayStoreTM)在线分发(例如,下载或上传),或者直接在两个用户设备(例如,智能电话)之间分发。如果在线发布,则计算机程序产品的至少一部分可以临时生成或至少临时存储在机器可读存储介质中,如制造商服务器的存储器、应用商店的服务器或中继服务器。
根据各个实施例,上述部件的每个部件(例如,模块或程序)可以包括单个实体或多个实体,并且多个实体中的一些实体可以单独地布置在不同的部件中。根据各个实施例,可以省略上述部件中的一个或更多个部件,或者可以添加一个或更多个其他部件。可替代地或附加地,多个部件(例如,模块或程序)可以被集成到单个部件中。在这种情况下,根据各个实施例,集成部件仍可以以与在集成之前由多个部件中的相应的一个部件执行它们相同或类似的方式来执行多个部件中的每一个部件的一个或更多个功能。根据各个实施例,可以顺序地、并行地、重复地或启发式地执行由模块、程序或另一部件执行的操作,或者可以以不同的顺序地执行或省略一个或更多个操作,或者可以添加一个或更多个其他操作。
通常,当以口头和书面的方式表达想法或感觉时,人可以使用句子作为表示完整内容的最小单元。句子可以包括一个或更多个句法词,以便准确地表达含义。包括在句子中的句法词可以由字间距或停顿分开。也就是说,在书写的情况下,字间距可以用于将一个句法词与另一个句法词区分开,而在说话的情况下,停顿可以用于将一个句法词与另一个句法词区分开。句法词可以是书写或说话的一大部分。一个句法词可以包括一个或更多个音节。例如,句子“tell me the weather(告诉我天气)”可以包括四个句法词和五个音节。
根据实施例,基于人类话语的一个句子可以包括多个句法词。句子的多个句法词可以被停顿分开。例如,在一个句子“tell me the weather”中,可以存在将句法词“tell”和句法词“me”分开的第一停顿持续时间,可以存在将句法词“me”和句法词“the”分开的第二停顿持续时间,并且可以存在将句法词“the”和句法词“weather”分开的第三停顿持续时间。
在以下将更详细地描述的本公开的各个实施例中,为了便于说明,从用户话语的开始到用户话语的结束的持续时间可以被称为“话语区域”。当用户话语发生时,在电子设备检测到话语开始之后直到检测到话语的结束的持续时间可以被称为“活动区域(或活动持续时间)”。例如,活动区域可以具有与话语区域相同的开始时间点,但是可以具有不同的结束时间点。活动区域的结束时间点可以是从话语区域的用户话语结束的结束时间点流逝特定时间(以下称为“拖尾时间(hangover time)”或“剩余时间(residual time)”)的时间点。可以通过考虑可能存在于句法词之间的停顿来设置拖尾时间或剩余时间。拖尾时间或剩余时间可以防止对应于停顿的持续时间被误解为话语的结束。
根据实施例,活动区域可以是电子设备根据用于语音识别的人类话语来检测自然语言的整个持续时间。活动区域可以包括对应于句子中的句法词的语声活动持续时间(VAD)、用于将一个句法词与另一个句法词分开的语音无声持续时间(VSD)、或对应于拖尾时间的剩余持续时间。VAD可以是存在可听信号的持续时间,并且因此人在收听它时理解其含义。VSD可以是仅存在听不见的信号的持续时间,因此即使在收听它时,人也不理解其含义。剩余持续时间可以是用于检测话语的结束的持续时间,剩余持续时间应当与用于将一个句法词与另一个句法词分开的停顿区分开。
在以下描述的本公开的各个实施例中,可以提出用于使用从自然语言顺序地获得的一个或更多个部分文本自适应地调整拖尾时间的各个实施例,使电子设备能够更精确和更快速地检测话语的结束。例如,将提出一种特定的操作,其中电子设备根据从自然语言顺序地获得的一个或更多个部分文本来确定话语类型,该自然语言由于用户话语而实时输入。部分文本例如可以是使用语音识别根据与句子的每个句法词相对应的语声识别的文本。
根据实施例,电子设备可以基于顺序地提供的一个或更多个部分文本来识别用户话语的类型(以下称为“话语类型”),并且可以根据识别的话语类型自适应地确定拖尾时间。例如,基于顺序地提供的一个或更多个部分文本的句子的话语类型可以被识别为完整句子和不完整句子中的一者。完整句子可以是与如下一个或更多个部分文本的集合相对应的句子:在该一个或更多个部分文本中,指示执行操作的指令基于自然语言理解是可识别的。不完整句子可以是与如下一个或更多个部分文本的集合相对应的句子:在该一个或更多个部分文本中,指示执行操作的指令基于自然语言理解是不可识别的。当基于顺序地提供的一个或更多个文本的句子不可被识别为完整句子或不完整句子时,电子设备可以将句子的话语类型识别为“模糊句子”。在下文中,在本公开的各个实施例中,未被分类或定义为完整句子或不完整句子的句子被称为“模糊句子”。
根据实施例,电子设备可以基于顺序地提供的一个或更多个部分文本来识别话语类型和用户特征数据,并且可以根据识别的话语类型和用户特征数据自适应地确定拖尾时间。
在各个实施例中,根据话语类型,从自然语言顺序地获得的一个或更多个部分文本可以对应于完整句子、不完整句子和模糊句子中的一者。
如果一个或更多个部分文本是如下文本:在该文本中,指示执行操作的指令基于自然语言理解是可识别的,则电子设备可以将该一个或更多个部分文本的话语类型确定为完整句子。如果一个或更多个部分文本是如下文本:在该文本中,指示执行操作的指令基于自然语言理解是不可识别的,则电子设备可以将该一个或更多个部分文本的话语类型确定为不完整句子。如果一个或更多个部分文本基于自然语言理解无法明确地识别指示执行操作的指令,则电子设备可以将该一个或更多个部分文本的话语类型确定为模糊句子。电子设备可以使用例如深度学习技术来学习完整句子或不完整句子,并且可以允许存储器基于学习来累积数据。
根据实施例,电子设备可以减少完整句子的拖尾时间,增加不完整句子的拖尾时间,并允许模糊句子的拖尾时间被保持为参考拖尾时间。参考拖尾时间可以是为语音识别默认设置的拖尾时间。在这种情况下,电子设备可以响应于语音识别更快速和更准确地执行操作。
在各个实施例中,用户特征数据可以是指示语音速率、话语之间的停顿时间、停顿计数、用户的性别、年龄、区域和情绪中的至少一者的程度的值。例如,当用户的语音速率慢或停顿时间比平均值长时,电子设备可以通过考虑话语特征自适应地调整拖尾时间。电子设备可以使用例如深度学习技术来在存储器中累积用户特征数据。
根据实施例,电子设备可以通过使用基于递归神经网络(RNN)的深度学习模型分析通过语音分析顺序地提供的一个或更多个部分文本来识别话语类型。基于RNN的深度学习模型可以支持通过将先前时间步中的任何信息(隐藏状态)持续地传送到下一时间步来执行计算的方案。在用于识别话语类型的深度学习中,当执行双向门控循环单元(GRU)计算时,可以跳过预先进行计算的一个或更多个部分文本的计算。即,在通过语音识别功能生成部分文本时,对于新的部分文本的GRU计算,电子设备可以使用为先前的部分文本计算的值。在这种情况下,由于可以减少计算量,所以电子设备可以更快速地获得速度识别的结果。
根据实施例,电子设备可以使用GRU结构来确定从自然语言(例如,通过用户话语输入的音频信号(或语声信号))实时获得的部分文本或者先前获得的一个或更多个部分文本与实时获得的部分文本的组合是完整句子还是不完整句子。
根据各个实施例,电子设备可以自适应地调整要应用的拖尾时间,使得在执行语音识别时针对每种情况检测话语的结束,从而提供适于执行语音识别时的情况的服务,如语声助手。
图2图示了根据各个实施例的可以用作电子设备(例如,图1的电子设备101)中的语音识别的基本单元的VAD 210。
参考图2,其中电子设备提取语声信号的VAD 210可以由句法词开始的时间点212和句法词结束的时间点214来定义。
根据实施例,句法词开始的时间点212可以是被包括在句子中的第一句法词开始的时间点或第二句法词和/或后续句法词开始的时间点。被包括在句子中的第一句法词开始的时间点可以是语声检测开始点(VDSP)或语声活动开始时间点。被包括在句子中的第二句法词和后续句法词开始的时间点可以是语声延续时间点(VCP)212。
根据实施例,句法词结束的时间点214可以是被包括在句子中的一个或更多个句法词结束的时间点。被包括在句子中的每个句法词结束的时间点可以是语声中断时间点(VBP)214。
假设VAD 210对应于以上基于图2的描述中的一个句法词。然而,VAD 210也可以是其中存在对应于一个音节的可听信号的持续时间。
根据实施例,电子设备可以使用语音识别技术来将语声信号(或可听信号、音频信号)转换为机器可识别的机器语言,该语声信号是由人类话语引起的自然语言。机器语言可以具有例如文本形式。电子设备可以获得由VAD 210中的人类话语引起的语声信号,并且可以分析获得的语声信号以获得具有文本形式的话语句子。
根据实施例,其中电子设备提取语声信号的VAD 210可以被定义为从与语声活动开始时间点相对应的VCP 212或VDSP到VBP 214的持续时间。人可听的可听频带的信号可以存在于VAD 210中。VAD 210可以是例如与一个句法词相对应的连续音频信号无中断地存在的持续时间。单个句法词可以包括一个或更多个音节。在以下描述中,在一个VAD 210中生成的文本将被用作部分文本的示例。部分文本例如可以是通过分析对应于一个句法词的音频信号而获得的文本。然而,根据在本公开中提出的各个实施例,除了单个VAD 210之外,部分文本还可以被定义为根据音频信号生成的文本,该音频信号是从不同地定义的持续时间或多个VAD中提取的。
图3图示了根据实施例的在电子设备(例如,图1的电子设备101)中检测语声活动结束时间点的示例。
参考图3,输入信号“输入(Input)”310可以是由人类话语引起的输入的信号。输入信号310例如可以是通过麦克风从人类话语引起的可听信号转换成电信号的音频信号。输出信号“输出(Output)”360可以是基于自然语言分析技术从输入信号310获得的信息。输出信号360可以包括例如关于语声活动开始时间点320和/或语声活动结束时间点350的信息。语声活动开始时间点320可以是由于人类话语的开始而使用于语音识别的音频信号开始输入的时间点。语声活动结束时间点350可以是检测到在持续了人类话语停止之后的特定时间(例如,拖尾时间340)不存在用于语音识别的音频信号的输入的时间点。
根据实施例,活动持续时间370可以被定义为从语声活动开始时间点320到语声活动结束时间点350的持续时间。活动持续时间370可以是可以被认为是人类发出话语的状态的持续时间。电子设备101可以提供用于在活动持续时间370中区分语声信号存在的语音持续时间和语声信号不存在的停顿持续时间的检测功能。检测功能可以是例如检测语声是否活动的语声活动检测(VAD)功能。VAD功能可以从作为由人类话语引起的输入的音频信号310中检测语声活动开始时间点320,多个VBP 331、333和330,多个VCP 321和323,或语声活动结束时间点350。当检测到VBP 330之后拖尾时间340流逝时,可以检测语声活动结束时间点350。
根据实施例,确认话语的结束(结束点)可以是可以由电子设备101提供的语音识别服务中的重要因素中的一个重要因素。因此,语音识别服务可以使用端点检测(EPD)方案,该方案是基于语声的技术中的一种技术。根据EPD方案,电子设备101可以使用作为语声检测功能的语声活动检测(VAD)技术来监测语声的存在(语声活动区域)或语声的不存在(仅有噪声或无声区域),并且可以只有在经历了特定时间没有语声时才确定话语结束。在检测到话语结束的语声活动结束时间点350时,电子设备101可以基于在自动语音识别(ASR)中在话语开始之后直到话语的结束所识别的全文本来处理最终话语的结果。
根据实施例,电子设备101可以考虑话语类型来确定拖尾时间340,可以考虑拖尾时间340来检测语声活动结束时间点350。话语类型可以通过经由语音识别实时获得的并且被顺序地输出的一个或更多个部分文本来识别。可以从自语声活动开始时间点320或VCP321和323到VBP 331、333和330被输入的音频信号中提取语声信号,并且可以对提取的音频信号进行语音识别以实时获得文本。
根据实施例,当人说出包括4个句法词和7个音节的一个完整句子“tell me theweather”时,电子设备101可以将与人输入的完整句子相对应的可听信号转换为音频信号,该音频信号是具有如图所图示的特定幅度和周期的电信号。音频信号可以包括一个语声活动开始时间点320、多个VBP 331、333和330、多个VCP 321和323、和/或语声活动结束时间点350。多个VBP 331、333和330可以是三个句法词结束的时间点,并且多个VCP 321和323可以是在检测到VBP 331、333和330之后新句法词开始的时间点。在这种情况下,由于不足以被确定为话语的结束的句法词“tell”和句法词“me”之间的停顿持续时间、句法词“me”和句法词“the”之间的停顿持续时间或者句法词“the”和句法词“weather”之间的停顿持续时间比拖尾时间340短,所以电子设备101可以不将停顿持续时间确定为话语的结束。当在句法词“weather”之后停顿持续时间超过拖尾时间340时,电子设备101可以检测到话语结束。
图4是根据各个实施例的支持电子设备(例如,图1的电子设备101)中的语音识别的框图400。
参考图4,电子设备可以包括处理器(例如,包括处理电路系统)410、通信单元(例如,包括通信电路系统)420、存储器430和/或接口(例如,包括接口电路系统)440。麦克风(MIC)450、扬声器(SPK)460、相机(CAM)470和显示器(DPY)480中的至少一者可以耦接到接口440。存储器430可以包括操作系统(OS)431、应用程序433和指令435。电子设备可以包括不同于图4的部件的额外部件,或者可以省略图4的部件中的至少一者。
根据实施例,通信单元420可以包括各种通信电路系统并提供用于与其他系统或设备通信的接口。通信单元420可以包括能够通过外部网络(例如,网络)进行通信的网络接口卡或无线发送/接收单元。通信单元420可以执行用于接入无线网络的信号处理。无线网络可以包括例如无线局域网络(LAN)或蜂窝网络(例如,长期演进(LTE))中的至少一者。
根据实施例,接口440可以包括各种接口电路系统并且检测来自外部(例如,用户)的输入,并且可以向处理器410提供与检测到的输入相对应的数据。接口440可以包括用于检测来自外部的输入的至少一个硬件模块。至少一个硬件模块可以包括例如传感器、键盘(keyboard)、键盘(key pad)、触摸板和触摸面板中的至少一者。当接口440实现为触摸面板时,接口440可以与显示器480组合以提供触摸屏幕。在这种情况下,接口440可以向处理器410提供用于用户的触摸输入(例如轻敲、按压、挤压、拉伸、滑动、刮擦、旋转等)的数据。
根据实施例,显示器480可以执行用于输出数字、字符、图像和/或图形形式的信息的功能。显示器480可以包括用于输出的至少一个硬件模块。至少一个硬件模块可以包括例如液晶显示器(LCD)、发光二极管(LED)、发光聚合物显示器(LPD)、有机发光二极管(OLED)、有源矩阵有机发光二极管(AMOLED)和柔性LED(FLED)中的至少一者。显示器480可以显示与从处理器410接收的数据相对应的画面。显示器480可以被称为“输出单元”、“显示单元”或具有等同技术含义的其他术语。
根据实施例,可以通过接口440电耦接到处理器410的麦克风450可以将由于用户话语而从外部输入的可听信号转换为电音频信号。由麦克风450转换的音频信号可以通过接口440提供给处理器410。除了麦克风450之外,可以通过接口440电耦接到处理器410的部件可以是扬声器460和相机470中的至少一者。扬声器460可以通过将信号转换成人类可听的可听信号,来输出通过接口440从处理器410提供的电音频信号。相机470可以响应于来自处理器410的控制来捕捉对象,将根据捕捉的图像转换为电信号,并通过接口440将其提供给处理器410。
根据实施例,存储器430可以存储与用于操作电子设备的基本程序相对应的操作系统431、支持各种功能的应用程序433、允许处理器410执行根据各个实施例的操作的指令435、或者诸如设置信息的数据。存储器430可以由易失性存储器、非易失性存储器或者易失性存储器和非易失性存储器的组合构成。存储器430可以在处理器410的请求下提供存储的数据。
根据实施例,处理器410可以包括各种处理电路系统并且使用存储在存储器430中的指令435来控制电子设备的其他部件中的至少一者和/或执行用于通信的数据处理或计算。处理器410可以包括中央处理单元(CPU)、专用处理器、图形处理单元(GPU)、微控制器单元(MCU)、传感器集线器、辅助处理器、通信处理器、应用处理器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)中的至少一者,并且可以具有多个核。
根据实施例,处理器410可以处理通过接口440获得的数据,或者可以通过接口440控制各种输入和/或输出设备的操作状态。各种输入和/或输出设备可以包括例如麦克风(MIC)450、扬声器(SPK)460、相机(CAM)470或显示器(DPY)480中的至少一者。处理器410可以通过通信单元420发送和/或接收信号。
根据实施例,当发出用户话语时,处理器410可以分析从麦克风450提供的语声信号,以使用基于语声的模型来识别话语类型,并且可以基于识别的话语类型自适应地调整用于确定话语的结束的拖尾时间。处理器410可以在通过应用拖尾时间来识别话语的结束时通过自动语音识别来生成最终文本,并且可以提供整体控制以使用最终文本来执行用户期望的操作。
例如,处理器410可以基于根据音频信号顺序地识别的一个或更多个部分文本来识别输入的音频信号的话语类型,该音频信号是从由于用户话语而从外部施加的信号转换而来的电信号。处理器410可以基于识别的话语类型自适应地确定拖尾时间,并且可以通过应用拖尾时间来检测音频信号的话语的结束。这里,输入的音频信号的话语类型可以对应于完整句子、不完整句子和模糊句子中的一者。完整句子可以是如下文本:在该文本中,指示执行操作的指令基于自然语言理解是可识别的。不完整句子可以是如下文本:在该文本中,指示执行操作的指令基于自然语言理解是不可识别的。模糊句子可以是未被分类为完整句子或不完整句子的文本。
在各个实施例中,如果要由通过自动语音识别检测到的一个部分文本的句子或顺序地检测到的至少两个部分文本传达的含义是清楚的,则该句子可以被识别为完整句子。
在各个实施例中,如果要由通过自动语音识别检测到的一个部分文本的句子或顺序地检测到的至少两个部分文本传达的含义部分不清楚,则该句子可以被识别为不完整句子。
在各个实施例中,如果通过自动语音识别检测到的一个部分文本或顺序地检测到的至少两个部分文本的句子未被分类为完整句子或不完整句子,则该句子可以被分类为模糊句子。
下面的表1总结了如下示例:其中基于上面提出的标准,对于电子设备101中的每个话语类型,句子类型是可识别的。
[表1]
/>
/>
/>
/>
在上面表1的示例中,基于英语确定句子类型。确定句子类型的标准对于每种语言可以是不同的。因此,应该为电子设备支持的每种语言准备用于确定句子类型的标准。
例如,在韩语的情况下,当句子结构完整时,它可以被视为完整句子,但是一些名词类型的非最终结尾句子也可以被视为完整句子。当句子结构不完整时,它可以被视为不完整句子,而当用户的上下文部分地不完整时,它可以被视为不完整句子,即使它在语法上是完整句子。在韩语的情况下,句子是否完整/不完整可以基于后置进行分类,并且句子可以基于指定的后置进行分类。
句子类型可以被分类为例如完整句子、不完整句子和模糊句子。在一个或两个词的情况下,由于话语较短,因此可以将一个或两个词分类为未被确定为完整/不完整的句子。由于这样的句子没有被分类为完整句子或不完整句子,所以它可以被识别为模糊句子。然而,不限于此,在例外情况下,可以将其视为完整/不完整。另外,在语声助手的情况下,倾向于偏好简短且简明的话语表达,并且由于当实际以对应类型发出话语时通常执行操作,所以即使语声助手类型的名词表达在语法上不是完整句子,电子设备101也可以将其识别为完整句子。基本分类方法如上面的表1所示,但是即使在每个表中示出了基本分类方法,异常处理也是可能的。
下面的表2总结了关于电子设备101中的每种话语的句子类型的异常话语的示例。
[表2]
如上面的表2中总结的,由于当它被用作单个词时不可能处理实际上可用的话语,所以异常词可以被视为完整句子/不完整句子。通过关注可用性,在应用名称和基于聊天机器人的话语的情况下,甚至单个词也可以被视为完整句子。也可以将具有可用性的日期和专用词视为不完整句子。
根据实施例,可以通过考虑每种语言的特征来不同地定义确定句子类型的标准。也就是说,由于确定句子类型的标准对于每种语言可以是不同的,因此确定句子类型的标准可以针对电子设备中支持的异常处理的部分或每种语言来定义。
图5是图示了根据实施例的用于在电子设备(例如,图1的电子设备101)中执行基于语音识别的操作的控制流程的图500。
参考图5,在根据实施例的操作510中,电子设备101可以基于部分文本来识别话语类型。为此,电子设备101可以从外部接收由用户话语引起的可听信号,并且可以将接收到的可听信号转换为电音频信号。电子设备101可以对音频信号执行预处理,并且可以实时从预处理的音频信号(例如语声信号)获得部分文本。电子设备101可以基于顺序地获得的一个或更多个部分文本来识别音频信号的话语类型。被考虑来识别话语类型的一个或更多个部分文本可以是实时新获得的部分文本,或者是先前获得的一个或更多个部分文本与新获得的部分文本的组合。
在根据实施例的操作520中,电子设备101可以基于使用部分文本而识别的话语类型来自适应地确定拖尾时间,并且可以通过应用确定的拖尾时间来检测音频信号的语声活动结束时间点。假设话语类型是完整句子、不完整句子和模糊句子中的一者,则电子设备101可以相对于完整句子确定比参考拖尾时间(例如,900ms)短的拖尾时间(例如,600ms),可以相对于不完整句子确定比参考拖尾时间(例如,900ms)长的拖尾时间(例如,1800ms),并且可以相对于模糊句子确定保持参考拖尾时间900ms。
在根据实施例的操作530中,电子设备101可以通过应用拖尾时间来检测话语的结束。例如,电子设备101可以监测音频信号中是否出现大于或等于基于话语类型确定的拖尾时间(例如,600ms、900ms和1800ms中的一者)的停顿持续时间。当出现大于或等于拖尾时间的停顿持续时间时,电子设备101可以检测到用户话语在该时间点结束。在检测到话语的结束时,电子设备101可以停止用于语音识别的操作,可以基于直到该时间点分析的文本通过自然语言分析来执行用户请求的操作,并且可以将其结果提供给用户。
根据实施例,如果基于由实时执行的语音识别引起的部分文本未能识别出话语类型,则电子设备101可以通过另外考虑将要通过语音识别新提供的部分文本来识别话语类型。作为其示例,可以使用基于RNN的深度学习模型。GRU计算可以应用于基于RNN的深度学习模型。当使用应用了GRU计算的基于RNN的深度学习模型时,虽然通过语音识别再次提供了先前分析的部分文本,但电子设备101可以不执行计算,而是可以使用先前执行的计算的结果。在这种情况下,电子设备101可以减少对部分文本执行的计算来识别话语类型,从而提高处理速度。
根据实施例,当在操作520中确定拖尾时间时,连同话语类型,电子设备101还可以考虑个人数据,例如个体速率、停顿时间、停顿计数、用户年龄、区域或情绪。
图6a、图6b和图6c图示了根据各个实施例的确定每个话语类型的拖尾时间的示例。
参考图6a,当话语类型是完整句子时,与对应于参考拖尾时间的传统拖尾时间(例如,传统EPD拖尾时间)(例如,900ms)610a相比,拖尾时间(例如,自适应EPD拖尾)620a可以被确定为相对短的时间(例如,小于900ms)。例如,针对完整句子的话语类型而确定的拖尾时间620a可以是600ms。
根据实施例,连同对应于话语类型的完整句子,可以通过进一步考虑诸如语音速率或停顿时间的用户特征信息来自适应地调整拖尾时间620a。例如,如果话语类型是完整句子并且语音速率是正常的,则可以将拖尾时间620a确定为“600ms+α1”。600ms可以是可以针对完整句子的话语类型和正常状态而给出的拖尾时间。作为另一示例,如果话语类型是完整句子并且语音速率快,则可以将拖尾时间620a确定为“400ms+α1”。400ms可以是可以针对完整句子的话语类型和快速状态而给出的拖尾时间。作为另一示例,如果话语类型是完整句子并且语音速率慢,则可以将拖尾时间620a确定为“800ms+α1”。800ms可以是可以针对完整句子的话语类型和慢速状态而给出的拖尾时间。在上面的示例中,α可以是可以针对用户特征信息(例如每位说话者的语音速率、停顿时间或停顿计数)的组合而给出的权重。在这种情况下,α1可以是可以针对话语类型是完整句子的情况而给出的权重。
当根据上述图6a确定拖尾时间时,EPD发生得比应用了作为参考拖尾时间的传统拖尾时间的情况快了至少1/3倍,从而在生成最终文本之后更快速地执行操作。
参考图6b,当话语类型是不完整句子时,与对应于参考拖尾时间的传统拖尾时间(例如,900ms)610b相比,拖尾时间620b可以被确定为相对长的时间(例如,大于900ms)。例如,针对不完整句子的话语类型而确定的拖尾时间620b可以是1800ms。
根据实施例,连同对应于话语类型的不完整句子,可以通过进一步考虑诸如语音速率或停顿时间的用户特征信息来自适应地调整拖尾时间620b。例如,如果话语类型是不完整句子并且语音速率是正常的,则可以将拖尾时间620b确定为“1800ms+α2”。1800ms可以是可以针对不完整句子的话语类型和正常状态而给出的拖尾时间。作为另一示例,如果话语类型是不完整句子并且语音速率快,则可以将拖尾时间620b确定为“1300ms+α2”。1300ms可以是可以针对不完整句子的话语类型和快速状态而给出的拖尾时间。作为另一示例,如果话语类型是不完整句子并且语音速率慢,则可以将拖尾时间620b确定为“2500ms+α2”。2500ms可以是可以针对不完整句子的话语类型和慢速状态而给出的拖尾时间。在上面的示例中,α可以是可以针对用户特征信息(例如每位说话者的语音速率、停顿时间或停顿计数)的组合而给出的权重。在这种情况下,α2可以是可以针对话语类型是不完整句子的情况而给出的权重。
当根据上述图6b确定拖尾时间时,通过等待是应用了作为参考拖尾时间的传统拖尾时间的情况两倍的停顿来处理不完整句子,从而充分传达用户打算表达的词。这可以有助于在通过更精确地应用了用户的上下文来生成文本之后执行正常的NLU操作。
参考图6c,当话语类型是模糊句子时,可以将拖尾时间620c确定为与对应于参考拖尾时间的传统拖尾时间(例如,900ms)610c相同的时间。例如,针对模糊句子的话语类型而确定的拖尾时间620c可以是900ms。通过该决定,当用户的上下文模糊时,保持作为参考拖尾时间的传统拖尾时间,从而可以应用典型特征。
根据实施例,连同对应于话语类型的模糊句子,可以通过进一步考虑诸如语音速率或停顿时间的用户特征信息来自适应地调整拖尾时间620c。例如,如果话语类型是模糊句子并且语音速率是正常的,则拖尾时间620c可以被确定为“900ms+α3”。900ms可以是可以针对模糊句子的话语类型和正常状态而给出的拖尾时间。作为另一示例,如果话语类型是模糊句子并且语音速率快,则拖尾时间620c可以被确定为“700ms+α3”。700ms可以是可以针对模糊句子的话语类型和快速状态而给出的拖尾时间。作为另一示例,如果话语类型是模糊句子并且语音速率慢,则可以将拖尾时间620c确定为“1100ms+α3”。1100ms可以是可以针对模糊句子的话语类型和慢速状态而给出的拖尾时间。在上面的示例中,α可以是可以针对用户特征信息(诸如每位说话者的语音速率、停顿时间或停顿计数)的组合而给出的权重。在这种情况下,α3可以是可以针对话语类型是模糊句子的情况而给出的权重。
由于各种研究结果表明语音速率或使用停顿的频率高度依赖于年龄,因此年龄部分在内部被更多地加权。可以确定基本模式被设置为快、正常和慢,并且EPD设置时间对于每个设置是不同的。除了年龄和性别之外,在ASR上传送以测量个体速率和/或话语之间的停顿时间和计数的部分文本或全文本(用于计算关于在不完整句子中等待多长时间的个体偏差)可以用于针对每个个体的话语类型设置α值α1、α2和α3,使得根据话语的上下文应用最终的个性化EPD时间。
图7a、图7b和图7c图示了根据各个实施例的确定电子设备(例如,图1的电子设备101)中的每个话语类型的拖尾时间的示例。
参考图7a,电子设备101可以识别出通过自动语音识别功能识别的一个或更多个部分文本“call Mom(呼叫妈妈)”711a或“call my mom(呼叫我妈妈)”731a的话语类型是完整句子。在这种情况下,电子设备101可以将应用的拖尾时间722a或742a确定为比作为参考拖尾时间721a或741a的900ms短的600ms。当检测到超过600ms的停顿持续时间712a或732a时,电子设备101可以确认话语结束,其中600ms是在检测到“call Mon”711a或“call mymom”731a的VBP之后应用的拖尾时间722a或742a。在确认话语的结束后,电子设备101可以对包括被识别为完整句子的一个或更多个部分文本的全文本执行自然语言分析,并且基于其结果,可以提供根据用户的上下文进行呼叫妈妈的操作。
参考图7b,电子设备101可以识别出通过自动语音识别功能识别的第一部分文本“What is the(怎么样)”711b或“tell me(告诉我)”731b的话语类型是不完整句子。在这种情况下,电子设备101可以将应用的拖尾时间722b或742b确定为比作为参考拖尾时间721b或741b的900ms短的1800ms。在检测到“What is the”711b或“tell me”731b的VBP之后,在停顿持续时间721b或732b超过应用的拖尾时间之前话语继续,并且因此电子设备101可以识别出第二部分文本“weather(天气)”713b或“the weather(天气)”733b。电子设备101可以对新识别的第二部分文本而不是先前进行计算的第一部分文本执行计算,并且因此可以识别出作为两个部分文本的组合的“What is the weather(天气怎么样)”或“tell me theweather(告诉我天气)”的话语类型是完整句子。在这种情况下,电子设备101可以将应用的拖尾时间724b或744b确定为比作为参考拖尾时间723b或743b的900ms短的600ms。一旦检测到超过600ms的停顿持续时间714a或734a,电子设备101就可以确认话语结束,该600ms是在检测到“What is the weather”或“tell me the weather”的VBP之后应用的拖尾时间724a或744a。在确认话语的结束时,电子设备101可以对被识别为完整句子的包括一个或更多个部分文本的全文本执行自然语言分析,并且基于其结果,可以提供根据用户的上下文通过语声或屏幕来引导今天的天气的操作。
参考图7c,电子设备101可以识别出通过自动语音识别功能识别的第一部分文本“Add an alarm(添加闹钟)”711c或“I need to buy(我需要购买)”731c的话语类型是模糊句子。在这种情况下,电子设备101可以将应用的拖尾时间722c或742c确定为作为参考拖尾时间722a或742a的900ms。在检测到“Add an alarm”711b或“I need to buy”731c的VBP之后,电子设备101可以监测在停顿持续时间712c或732c超过所应用的拖尾时间722c或742c的900ms之前话语是否继续。在识别出第一部分文本“Add an alarm”711c之后,电子设备101可以在900ms(900ms是应用的拖尾时间722c)流逝之前识别出第二部分文本“for 7:45am(针对上午7:45)”713c。电子设备101可以对新识别的第二部分文本而不是先前进行计算的第一部分文本执行计算,并且因此可以识别出作为两个部分文本的组合的“Add analarm for7:45am(添加上午7:45的闹钟)”的话语类型是完整句子。在这种情况下,电子设备101可以将应用的拖尾时间724c确定为比作为参考拖尾时间723c的900ms短的600ms。一旦检测到超过600ms的停顿持续时间714c,电子设备101就可以确认话语结束,该600ms是在检测到“Add an alarm for 7:45am”的VBP之后应用的拖尾时间724c。在确认话语的结束时,电子设备101可以对被识别为完整句子的包括一个或更多个部分文本的全文本执行自然语言分析,并且基于其结果,可以提供根据用户的上下文通过语声或屏幕来引导添加日程安排的操作。然而,如果在识别出第一部分文本“I need to buy”731c之后直到900ms(900ms是应用的拖尾时间742c)流逝也没有识别到第二部分文本,则电子设备101可以结束语音识别功能。
图8图示了根据实施例的电子设备(例如,图1的电子设备101)中基于话语类型的操作的示例。
在图8中假设用户说出包括四个句法词811、813、815和817的完整句子(例如“HiBixby play exciting songs(嗨,Bixby,播放激动人心的歌曲)”)的情况。可以将四个句法词811、813、815和817中的每一者识别为部分文本。第一至第三停顿持续时间821、823和825可以存在于四个句法词811、813、815和817之间,例如在部分文本之间,并且第四停顿持续时间827可以存在于最后的句法词(或最后的部分文本)之后。
电子设备101可以分析基于顺序地识别出的第一句法词“Hi Bixby(嗨,Bixby)”811的第一部分文本和基于第二句法词“play(播放)”813的第二部分文本中的每一者,并且可以识别出话语类型是不完整句子。结果,电子设备101可以将第一部分文本之后的拖尾时间841或第二部分文本之后的拖尾时间843确定为比作为参考拖尾时间831或833的900ms长的1800ms。
电子设备101可以分析通过顺序地识别出的第三句法词“exciting(激动人心的)”815识别的第三部分文本,并且可以通过进一步考虑先前分析的第一部分文本和第二部分文本来识别出话语类型是不完整句子。结果,电子设备101可以将第三部分文本之后的拖尾时间845确定为作为参考拖尾时间835的900ms。
电子设备101可以分析通过顺序地提取的第四句法词“songs(歌曲)”817识别的第四部分文本,然后可以通过进一步考虑先前分析的第一、第二和第三部分文本来识别出话语类型是完整句子。结果,电子设备101可以将第四部分文本之后的拖尾时间847确定为比作为参考拖尾时间837的900ms短的600ms。当在第四部分文本之后600ms(600ms是拖尾时间847)流逝时,电子设备101可以通过识别用户话语上下文来确认话语结束。此后,电子设备101执行快速话语结束处理,从而处理对应于用户请求的快速响应(操作860),并将其结果提供给用户(操作870)。如果未基于话语类型自适应地确定拖尾时间,则由于在参考拖尾时间(例如,900ms)流逝时才确认话语的结束,可能延迟响应于用户请求的响应过程(操作850)。
图9是图示了根据各个实施例的电子设备(例如,图1的电子设备101)中基于话语类型的操作的示例的图。
在图9中假设用户说出包括四个句法词911、913、915和917的完整句子(例如“HiBixby tell me weather(嗨,Bixby,告诉我天气)”)的情况。可以将四个句法词911、913、915和917中的每一者识别为部分文本。第一到第三停顿持续时间921、923和925可以存在于四个句法词911、913、915和917之间,例如在部分文本之间,并且第四停顿持续时间927可以存在于最后的句法词(或最后的部分文本)之后。
电子设备101可以分析基于顺序地识别出的第一句法词“Hi Bixby(嗨,Bixby)”911的第一部分文本和基于第二句法词“tell(告诉)”913的第二部分文本中的每一者,并且可以识别出话语类型是模糊句子。结果,电子设备101可以将第一部分文本和第二部分文本之后的拖尾时间941或943确定为作为参考拖尾时间931或933的900ms。
电子设备101可以分析通过顺序地识别出的第三句法词“me(我)”915识别的第三部分文本,并且可以通过进一步考虑先前分析的第一部分文本和第二部分文本来识别出话语类型是模糊句子。结果,电子设备101可以将第三部分文本之后的拖尾时间945确定为比作为参考拖尾时间935的900ms长的1800ms。如果未基于话语类型自适应地确定拖尾时间,则由于当在第三部分文本之后参考拖尾时间(例如,900ms)流逝时未检测到对应于第四句法词“weather(天气)”917的语声信号,所以电子设备101可以结束语音识别过程(操作950)。这将向用户提供不令人满意的结果(操作970)。
电子设备101可以分析在第三部分文本之后调整的拖尾时间945流逝之前通过第四句法词“weather”917识别出的第四部分文本,然后可以通过进一步考虑先前分析的第一、第二和第三部分文本来识别出话语类型是完整句子。结果,电子设备101可以将第四部分文本之后的拖尾时间947确定为比作为参考拖尾时间937的900ms短的600ms。当在第四部分文本之后600ms(600ms是拖尾时间947)流逝时,电子设备101可以通过识别用户话语上下文来确认话语结束。此后,电子设备101执行快速话语结束处理,从而处理对应于用户请求的快速响应(操作960),并将其令人满意的结果提供给用户(操作980)。如果未基于话语类型自适应地确定拖尾时间,则由于当参考拖尾时间(例如,900ms)流逝时才确认话语的结束,可能延迟响应于用户请求的响应过程。
根据上面参考图8和图9描述的示例,由于当用户话语结束时EPD快速结束,所以可以在语音识别中确保快速响应。如果通过考虑用户话语上下文需要等待稍长的时间,则通过等待用户的后续话语来收听发声的句子,从而提高用户的满意度。
图10图示了根据实施例的在电子设备(例如,图1的电子设备101)中基于语音识别执行操作的配置。
参考图10,在电子设备101中执行基于语音识别的操作的配置(以下称为“语音处理设备1030”)可以包括各种模块,这些模块包括预处理器1031、语声提取器1033、自动语音识别(ASR)1035、自适应结束点检测(AEPD)1037和/或自然语言理解(NLU)1039。每一个模块可以包括各种处理电路系统和/或可执行程序指令。
由用户1010的话语生成的语声信号1020可以输入到语音处理设备1030。在该图中,假设语声信号是“hi bixby play exciting songs”的自然语言,则该语声信号由用户1010的话语输入到被包括在电子设备中的麦克风。在这种情况下,麦克风可以将输入语声信号转换为作为电信号的音频信号,并将其作为预处理器1031的输入来发送。
预处理器1031可以预处理作为电信号的音频信号,用于语音识别。预处理器1031可以去除例如除了包括在音频信号中的用户语声之外的诸如环境噪声的噪声。
可以将经过预处理器1031预处理的音频信号作为输入提供给语声提取器1033。语声提取器1033可以从预处理的音频信号中提取用户发声的语声信号,并且可以输出提取的语声信号。由语声提取器1033输出的语声信号可以是用于语音识别的纯自然语言。由语声提取器1033提取的语声信号可以被传送到ASR 1035和AEPD 1037中的至少一者。
ASR 1035可以通过分析从语声提取器1033传送的语声信号来识别部分文本。例如,ASR 1035可以基于例如句法词的特定单元实时分析从语声提取器1033传送的语声信号,并且可以实时顺序地输出作为分析结果而获得的部分文本。ASR 1035通过分析而识别出的部分文本可以被传送到AEPD 1037。
AEPD 1037可以基于从ASR 1035传送的部分文本来识别迄今为止由ASR 1035分析的文本的话语类型。可以由AEPD 1037识别的话语类型可以是例如上定义的完整句子、不完整句子和模糊句子中的一者。AEPD 1037可以通过考虑识别出的话语类型来自适应地确定拖尾时间。
AEPD 1037可以监测从语声提取器1033传送的语声信号,以确定是否存在语声。AEPD 1037可以应用确定的拖尾时间以检测在从语声提取器1033传送的语声信号中用户话语是否结束。例如,当语声提取器1033提取的语声信号中不存在语声的停顿状态保持拖尾时间时,AEPD 1037可以确定用户话语结束。在确定用户话语结束时,AEPD 1037可以通知ASR 1035话语的结束。
根据实施例,当通过从ASR 1035先前传送的部分文本和/或新传送的部分文本确定句子完成时,AEPD 1037可以将拖尾时间调整为比参考拖尾时间短,以更快速地通知ASR1035话语的结束。
根据实施例,当通过由ASR 1035先前传送的部分文本和/或新传送的部分文本确定句子未完成时,AEPD 1037可以将拖尾时间调整为比参考拖尾时间长,以更保守地(或延迟地)通知ASR 1035话语的结束。
根据实施例,当通过由ASR 1035先前传送的部分文本和/或新传送的部分文本无法确定句子完整或不完整时,AEPD 1037可以保持参考拖尾时间。
在上述各个实施例中,为了分析由ASR 1035分析的语声信号的话语类型,AEPD1037可以参考先前从ASR 1035传送的一个或更多个部分文本的计算结果连同从ASR 1035新传送的部分文本的计算结果。AEPD 1037可以使用例如基于RNN的深度学习模型,其中基于文本的顺序数据处理是可能的。基于RNN的深度学习模型可以基于GRU计算来准备。
根据实施例,当执行深度学习时,AEPD 1037可以在生成从ASR 1035提供的部分文本的时间点开始GRU计算,使用先前计算的值来处理先前部分文本的计算部分,并且仅计算从ASR 1035新提供的部分文本。
一旦从AEPD 1037识别出用户话语结束,ASR 1035就可以停止分析从语声提取器1033提供的语声信号。ASR 1035可以向NLU 1039提供在话语开始之后直到识别出话语的结束所分析的全文本。
NLU 1039可以对从ASR 1035提供的全文本执行自然语言分析,并且可以输出最终话语1040的结果,使得考虑了用户的上下文的操作基于分析结果而执行。
如上所述,根据各个实施例的电子设备101可以在发出用户话语时基本上通过基于语声的模型来检测语音持续时间和/或停顿持续时间,并且可以识别用户话语上下文以基于对应于完整句子、不完整句子和模糊句子中的一者的话语类型来自适应地调整用于确定话语的结束的拖尾时间。电子设备101可以在识别出话语的结束的时间点停止音频记录,通过自动语音识别生成最终文本,并且使用该最终文本通过NLP任务执行用户期望的操作。在这种情况下,电子设备101可以更快速和更准确地向用户提供例如聊天机器人的语声助手服务。
图11图示了根据实施例的在电子设备(例如,图1的电子设备101)中执行语音识别的配置。
参考图11,在电子设备101中识别语声的设备(以下称为“语声识别设备”)可以包括语声分析模块1150和/或语声中断检测模块1160。语声分析模块1150可以包括各种模块,这些模块包括个人逻辑1151、AEPD逻辑(AEPD决策)1152、自然语言模型(NL-EPD)1153、嵌入1154、模型权重1155和/或ASR 1156。语声中断检测模块1160可以包括各种模块,这些模块包括声学模型(AM)决策逻辑1161、AM-EPD逻辑1162和/或模型权重1163。每一个模块可以包括各种处理电路系统和/或可执行程序指令。
根据实施例,可以执行说话者验证操作(操作1120),使得通过用户话语生成的语声信号1110用于诸如语声助手服务的指定功能。例如,可以基于说话者识别功能来执行说话者验证操作,或者可以使用在执行唤醒时传送的语声数据来执行说话者验证操作。说话者的年龄和/或性别分类可以在说话者验证操作中执行。例如,在诸如语声助手服务的指定功能被激活(操作1130)之后,由于话语而生成的语声信号1110可以用于确定诸如说话者的年龄或性别的特征(操作1140)。
语声分析模块1150可以根据由用户话语生成的语声信号1110顺序地识别部分文本,并且可以基于识别出的部分文本来识别话语类型。语声分析模块1150可以通过参考识别出的话语类型和说话者特征信息(诸如说话者的年龄、性别、语音速率或停顿时间)来确定话语是否结束。在检测到话语的结束时,语声分析模块1150可以输出作为语声信号1110的自动识别结果的最终文本。
根据实施例,说话者的年龄、性别、语音速率和停顿时间中的至少一者被提供给个人逻辑1151。基于此,将被参考以确定部分文本的拖尾时间的用户特征信息可以被提供给AEPD逻辑1152。AEPD逻辑1152可以将从ASR 1156提供的部分文本传送到NL-EPD 153。NL-EPD 1153可以分析从AEPD逻辑1152传送的部分文本,可以基于分析结果确定话语类型对应于完整句子、不完整句子和模糊句子中的哪一种句子,并且可以将确定结果提供给AEPD逻辑1152。可以通过嵌入1154或模型权重1155对基于NL-EPD 1153的分析结果进行深度学习或记录。可以将是否存在从语声中断检测模块1160检测到的语声信号(EPD:0或1)提供给AEPD逻辑1152(操作1170)。
具体地,在语声中断检测模块1160中执行的操作中,AM决策逻辑1161可以将由用户话语引起的音频信号传送到AM-EPD逻辑1162。AM-EPD逻辑1162可以访问模型权重1163以确定音频信号中是否存在声学信号,并且可以将确定结果(VAD:0或1)提供给AM决策逻辑1161。AM决策逻辑1161可以基于识别在AM-EPD逻辑1162提供的每个特定持续时间(例如,20ms)期间是否存在声学信号的信息(例如,VAD)来确定指示时间段期间的声学状态的信息(例如,EPD)。AM决策逻辑1161可以向AEPD逻辑1152提供指示确定的时间段期间的声学状态的信息(例如EPD)。
AEPD逻辑1152可以基于从个人逻辑1151提供的用户特征信息和从NL-EPD 1153提供的话语类型来确定要应用于确定语声活动结束时间点的拖尾时间。在提供指示从语声中断检测模块1160检测到其中不存在音频信号的停顿持续时间的识别符之后,如果直到拖尾时间流逝也未从语声中断检测模块1160识别出存在音频信号,则AEPD逻辑1152可以确认话语的结束。AEPD逻辑1152可以向ASR 1156通知话语的结束。当从AEPD逻辑1152报告话语的结束时,ASR 1156可以基于直到报告话语的结束而分析的部分文本来生成全文本,并且可以将全文本传送到输入1180用于自然语言分析。
图12图示了根据实施例的用于检测电子设备(例如,图1的电子设备101)中的用户话语的结束的控制流程。
参考图12,在根据实施例的操作1210中,电子设备101可以识别出通过从外部输入的可听信号发起了用户话语。在检测到用户话语时,电子设备101可以将由用户话语引起的可听信号输入转换为音频信号,在对音频信号执行预处理之后提取音频信号,并且对提取的音频信号执行语音识别以顺序地获得部分文本。
在根据实施例的操作1220中,电子设备101可以监测在提取的音频信号中是否发生了停顿。由于用户话语的特征或用户话语的结束,语声信号中的停顿可以发生在一个句法词和另一句法词之间。
在根据实施例的操作1230中,电子设备10可以确定在停顿发生之前获得的一个或更多个部分文本的句子是否是完整句子。例如,当确定可以通过分析迄今为止获得的一个或更多个部分文本来识别用户的上下文,而不再需要通过语音识别进行文本输入时,电子设备101可以确定话语类型是完整句子。在这种情况下,在操作1250中,电子设备101可以将拖尾时间调整为对应于完整模式的拖尾时间。对应于完整模式的拖尾时间(例如,600ms)可以比在电子设备101中设置的默认拖尾时间(例如,900ms)短。当确定对应于完整模式的拖尾时间(例如,600ms)时,电子设备101可以进一步考虑用户特征信息。当用户的语音速率快时,可以将拖尾时间确定为比对应于完整模式的拖尾时间(例如600ms)短,例如确定为400ms。当用户的语音速率慢时,可以将拖尾时间确定为比对应于完整模式的拖尾时间(例如600ms)长,例如确定为800ms。当用户的语音速率正常时,可以将拖尾时间确定为等于对应于完整模式的拖尾时间(例如,600ms)。
在根据实施例的操作1240中,电子设备101可以基于在停顿发生之前获得的一个或更多个部分文本来确定句子是否是模糊句子。例如,在确定因为通过分析迄今为止获得的一个或更多个部分文本无法识别用户的上下文而需要通过语音识别获得额外部分文本时,电子设备101可以确定话语类型是不完整句子。在这种情况下,在操作1260中,电子设备101可以将拖尾时间调整为对应于不完整模式的拖尾时间。对应于不完整模式的拖尾时间(例如,1800ms)可以比在电子设备101中设置的默认拖尾时间(例如,900ms)长。当确定对应于不完整模式的拖尾时间(例如,1800ms)时,电子设备101可以进一步考虑用户特征信息。当用户的语音速率快时,可以将拖尾时间确定为比对应于不完整模式的拖尾时间(例如,1800ms)短,例如,确定为1300ms。当用户的语音速率慢时,可以将拖尾时间确定为比对应于不完整模式的拖尾时间(例如,1800ms)长,例如,确定为2500ms。当用户的语音速率正常时,可以将拖尾时间确定为等于对应于不完整模式的拖尾时间(例如,1800ms)。
在根据实施例的操作1230和操作1240中,如果话语类型不对应于完整句子或不完整句子,则电子设备101可以确定话语类型是模糊句子。在这种情况下,在操作1270中,电子设备101可以将拖尾时间调整为对应于模糊模式的拖尾时间。对应于模糊模式的拖尾时间(例如,900ms)可以等于在电子设备101中设置的默认拖尾时间(例如,900ms)。当确定对应于模糊模式的拖尾时间(例如,900ms)时,电子设备100还可以包括用户特征信息。当用户的语音速率快时,可以将拖尾时间确定为比对应于模糊模式的拖尾时间(例如,900ms)短,例如,确定为700ms。当用户的语音速率慢时,可以将拖尾时间确定为比对应于模糊模式的拖尾时间(例如,900ms)长,例如,确定为1100ms。当用户的语音速率正常时,可以将拖尾时间确定为等于对应于模糊模式的拖尾时间(例如,900ms)。
在根据实施例的操作1280中,电子设备101可以监测在提取的语声信号中停顿是否保持了超过确定的拖尾时间。如果在拖尾时间流逝之前释放了停顿状态,则返回到操作1230,电子设备101可以通过考虑新获得的部分文本来再次识别话语类型。如果在拖尾时间流逝之前保持停顿状态,进行到操作1290,则电子设备101可以确定用户话语结束。
图13图示了根据实施例的在电子设备(例如,图1的电子设备101)中执行语音识别的配置。
参考图13,识别电子设备101中的语声的设备(以下称为“语声识别设备”)可以包括用户状态检测模块1350、语声识别模块1360和/或语声中断检测模块1370(例如,图11的语声中断检测模块1160)。用户状态检测模块1350和语声识别模块1360可以包括图11的语声分析模块1150。用户状态检测模块1350可以包括个人逻辑1351、第一数据库1353和/或第二数据库1355。语声识别模块1360可以包括ASR 1361、AEPD逻辑1363、NL-EPD 1365、嵌入1367和/或模型权重1369。语声中断检测模块1370可以包括声学模型(AM)决策逻辑1371、AM-EPD逻辑1373和/或模型权重1375。上面列出的各种模块可以包括各种处理电路系统和/或可执行程序指令。
根据实施例,可以执行说话者验证操作(操作1320),使得用户话语生成的语声信号1310用于诸如语声助手服务的指定功能。例如,可以基于说话者识别功能来执行说话者验证操作,或者可以使用在执行唤醒时传送的语声数据来执行说话者验证操作。说话者的年龄和/或性别分类可以在说话者验证操作中执行。例如,在诸如语声助手服务的指定功能被激活(操作1330)之后,由于话语而生成的语声信号1310可以用于确定诸如说话者的年龄或性别的特征(操作1340)。
语声识别模块1360可以将从根据用户话语生成的语声信号1310顺序地识别的部分文本提供给用户状态检测模块1350。说话者的年龄、性别、语音速率和停顿时间中的至少一者被提供给用户状态检测模块1350。基于此,将被参考以确定部分文本的拖尾时间的用户特征信息可以被提供给语声识别模块1360。
根据实施例,个人逻辑1351可以具有用于对年龄和/或性别进行分类的基于深度学习的检测模块(未示出)和用于检查用户的语音速率的例程(未示出)。基于通过ASR 1361传送的部分文本和全文本中的至少一者,个人逻辑1351可以检查每个用户的语音速率和/或每个语音的停顿时间和计数。例如,个人逻辑1351可以取特定次数(例如,大约前10次)的平均值,并且可以基于所取的平均值来检查语音速率和话语之间的停顿时间和计数。个人逻辑1351可以将与用户特征值相对应的应用的值(例如,值α)设置为0,直到用户特征信息被检查。个人逻辑1351可以具有第一数据库1353,该第一数据库1353管理将被参考以基于内部确定的用户年龄和性别来确定部分文本的拖尾时间的用户特征值。个人逻辑1351可以具有第二数据库1355,该第二数据库1355管理将被参考以基于内部确定的用户年龄和性别来确定部分文本的拖尾时间的用户特征值。个人逻辑1351可以基于在第一数据库1351和第二数据库1355中管理的数据对用户特征进行分类,并且可以通过考虑分类的结果来确定最终应用的值(例如,α值)。用户特征可以被分类为例如快速、正常和慢速模式。当个人逻辑1351确定最终应用的值(例如,α值)时,即使对应于用户特征的模式相同,应用的值(例如,α值)也可能被确定为不同。即,即使在相同模式下,最终应用的值(例如,α值)对于某些扩展可能不同。在检查语音速率之后,个人逻辑1351可以不再针对对应模式来操作,并且可以持续地使用设置的α值(例如,α1、α2和α3)。
根据实施例,电子设备101可以使用第一数据库1353,该第一数据库1353定义了如下表3所示的基于说话者的年龄组和性别预设的用户特征值(例如,应用的值)。
[表3]
上面的表3可以包括基于与正成长的一代相比年长一代的语音相对慢并且在发音方面花费相对长的时间而生成的应用的值,并且存在实现相对更频繁和/或更长的停顿的趋势。此外,有可能包括基于男性和女性在语音速率方面没有实质差异而生成的应用的值,但是与女性相比,男性在说话时快速地进行发音,然而具有实现相对更频繁和更长的停顿的差异。
在上面的表3中,可以包括未被分类为年长一代或正成长的一代的未知(UK)部分。UK部分可以包括设置为正常模式的应用的值。根据实施例,当说话者的年龄组小于8或当对年龄进行分类的可能性低时,可以被分类为UK。尽管在上面的表3中没有考虑它,但是如果必要,也可以额外地考虑个体情绪和区域信息。例如,正常或慢速模式可以应用于低迷状态,并且也可以考虑口音或区域性语言,因为语音速率以及停顿率和计数可以不同。
下面的表4示出了第二数据库1355的示例,该第二数据库1355定义了基于说话者的语音速率和停顿时间预设的用户特征值(例如,应用的值)。
[表4]
上面的表4定义了通过各种群体实验的每种话语类型的快/正常/慢范围的值。停顿时间和计数用于检查新输入的部分文本的持续时间和长的停顿计数,并且可以被定义为当在每个个体的语音之后通过检查停顿特征而将该部分文本分类为不完整句子时用作个人值。
个人逻辑1351可以向AEPD逻辑1363提供将被参考以确定部分文本的拖尾时间的用户特征信息。AEPD逻辑1363可以将从ASR 1361提供的部分文本传送到NL-EPD 1365。NL-EPD 1365可以分析从AEPD逻辑1363传送的部分文本,可以基于分析结果确定话语类型对应于完整句子、不完整句子和模糊句子中的哪一种句子,并且可以将确定结果提供给AEPD逻辑1363。可以通过嵌入1367或模型权重1369对基于NL-EPD 1365的分析结果进行深度学习或记录。可以将是否存在从语声中断检测模块1370检测到的语声信号(EPD:0或1)提供给AEPD逻辑1363。
语声识别模块1360可以通过参考识别的话语类型和说话者特征信息(诸如说话者的年龄、性别、语音速率或停顿时间)来确定话语是否结束。在检测到话语的结束时,语声识别模块1360可以输出作为语声信号的自动识别结果的最终文本。
关于语声中断检测模块1370中的操作,AM决策逻辑1371可以将由用户话语引起的音频信号传送到AM-EPD逻辑1373。AM-EPD逻辑1373可以访问模型权重1375以确定音频信号中是否存在声学信号,并且可以将确定结果(VAD:0或1)提供给AM决策逻辑1371。AM决策逻辑1371可以基于识别在AM-EPD逻辑1373提供的每个特定持续时间(例如,20ms)期间是否存在声学信号的信息(例如,VAD)来确定指示时间段期间的声学状态的信息(例如,EPD)。AM决策逻辑1371可以向AEPD逻辑1363提供指示确定的时间段期间的声学状态的信息(例如EPD)。
AEPD逻辑1363可以基于从个人逻辑1351提供的用户特征信息和从NL-EPD 1365提供的话语类型来确定要被应用以确定语声活动结束时间点的拖尾时间。在提供指示从语声中断检测模块1370检测到其中不存在音频信号的停顿持续时间的识别符之后,如果直到拖尾时间流逝也未从语声中断检测模块1370识别出存在音频信号,则AEPD逻辑1363可以确认话语的结束。AEPD逻辑1363可以向ASR 1361通知话语的结束。当从AEPD逻辑1363报告话语的结束时,ASR 1361可以基于直到报告话语的结束而分析的部分文本来生成全文本,并且可以将全文本传送到输入1387用于自然语言分析。
图14图示了根据实施例的用于支持电子设备(例如,图1的电子设备101)中的语音识别的模型学习的流程。
参考图14,当在操作1410中检测到话语问题时,在操作1430中,电子设备101可以收集对应于语料库的用户特征,诸如每个用户的语音速率和每次话语的停顿时间和计数。语料库可以是语言数据的集合,该语言数据的集合共同地显示语言的现实性。电子设备101可以将收集的每个用户的特征信息分类成语声助手数据1411、ASR相关数据1413和一般数据1415,并且可以使用分类的语声助手数据1411、ASR相关数据1413或一般数据1415来基于深度学习进行训练。例如,一般数据1415可以用作共同地指代除了语声助手数据和ASR相关数据之外的数据的技术含义。
当在操作1420中检测到基准真值(GT)问题时,在操作1430中,电子设备101可以收集对应于语料库的用户特征,诸如每个用户的语音速率以及每次话语的停顿时间和计数。电子设备101可以通过考虑收集的用户特征来执行校正语声助手或用户测试数据的操作。校正操作可以防止或减少用于语声助手或用户测试数据的不正确GT被用于验证模型性能。电子设备101可以基于语声助手TC 1421或用户测试数据1423来验证模型性能,并且可以检查模型中缺少什么以便于改善模型性能。
在操作1440中,电子设备101可以根据先前收集并分类的用户特征信息基于深度学习来执行训练。当执行训练时,电子设备101可以提取验证数据。电子设备101可以使用验证数据来验证模型性能,并且可以选择相对于验证数据具有良好性能的最佳模型。
在操作1450中,电子设备101可以通过应用通过训练获得的最佳模型来预测用户的语声活动结束时间点。在操作1460中,电子设备101可以通过各种测试度量来评估模型性能,并且可以基于评估的结果对不正确的学习和测试数据执行校正和补偿操作。
图15图示了根据实施例的用于电子设备(例如,图1的电子设备101)中的语音识别的深度学习模型的数据格式。
参考图15,在操作1510中,电子设备101可以通过话语标签针对每个部分文本将话语类型分类为不完整句子(0:不完整)、完整句子(1:完整),以及模糊句子(2:模糊)中的一者。附图标记1520指示针对每个发声的部分文本(例如,Let,me,know,about Trump(让我了解特朗普))将话语类型对应于不完整句子(0:不完整)、完整句子(1:完整)和模糊句子(2:模糊)之中的哪个句子进行分类的示例。附图标记1530指示针对每个发声的部分文本(例如,Let,me,know,about(让我了解))将话语类型对应于不完整句子(0:不完整)、完整句子(1:完整)和模糊句子(2:模糊)之中的哪个句子进行分类的示例。可选地,电子设备101还可以通过学习(操作1540)来配置用于模糊示例的数据库(DB)。
如上所述,电子设备可以被配置成在根据EPD特征实时处理音频帧之后进行操作。能够顺序地处理数据的基于RNN的深度学习模型可以用于开发基于文本的NL-EPD。例如,为了与语声助手服务相关联,可以使用对应的训练、验证和/或测试数据来执行模型学习。为了对基本句子类型进行分类,可以利用正常语料库数据来检查它是否基本上是完整句子。
图14和图15图示了用于模型学习的数据和标签规则。由于对应的技术适用于各种设备,所以可以通过收集与电话、平板电脑或AI扬声器相关的数据来执行学习和测试。文本标签可以基本上使用完整/不完整句子的标签,并且内部学习模型可以基本上提供一种结构,在该结构中当完整/不完整的概率值不落入特定范围内时,模糊句子值被视为模糊句子。如果在性能问题中存在问题,则还可以支持这样的结构:在该结构中,通过将模糊句子包括在学习级中来学习模糊句子。当发出话语时,设备上下文信息也可以是重要的因素。因此,可选地,连同话语,设备上的上下文信息(例如,词根话语、后续话语或用户确认话语)也可以被学习和处理。
图16、图17和图18图示了根据实施例的学习之后的推理过程以便处理电子设备(例如,图1的电子设备101)中的实时环境的示例。
可以基于RNN提出根据实施例的深度学习模型。RNN是在序列数据处理中具有优势的模型,并且广泛用于诸如时间序列或自然语言的领域。RNN可以是计算方法的示例,其中在前一时间步(隐藏状态)中的信息被持续地传送到下一时间步。在RNN中,当序列太长时,前一时间步的信息可能不被传送到下一时间步。这可能被称为长期依赖性的问题。
图16图示了根据实施例的用于在电子设备(例如,图1的电子设备101)中使用自动语音识别来实时处理从音频信号(例如,语声信号)顺序地识别的部分文本的计算结构。
参考图16,根据实施例的计算结构可以具有分层结构,该分层结构包括输入层1670、嵌入层1660、前向层1650、后向层1640、丢弃层1630、全连接层1620和/或预测层1610。计算结构可以是例如双向门控循环单元(GRU)结构。
根据实施例,图16的计算结构可以对从音频信号实时获得的部分文本(例如,is)或者先前顺序地获得的一个或更多个部分文本(例如,to、day、wea、ther)与实时获得的部分文本(例如,is)的组合执行计算,并且可以基于计算的结果确定一个或更多个部分文本是对应于完整句子还是不完整句子。如果基于计算的结果确定一个或更多个部分文本对应于完整句子还是不完整句子是模糊的,则可以将一个或更多个部分文本预测为模糊句子。
根据实施例,因为已经对对应的部分文本(例如,to、day、wea、ther)进行了计算并且可以利用通过计算获得的结果,所以可以跳过图16中阴影指示的计算,。即,在前向层1650中,可以使用初始值(ht-1的值为0)对所有部分文本中的每一者(例如,to、day、wea、ther、is)顺序地执行GRU计算。在后向层1640中,将使用初始值(ht-1的值为0)对所有部分文本中的每一者(例如,to、day、wea、ther、is)以相反的顺序地执行GRU计算,但是可以仅对最后的部分文本(例如,is)执行GRU计算,并且可以针对GRU计算的结果为已知的剩余文本(例如,to、day、wea、ther)跳过GRU计算。前向层1650中的最终计算结果值和后向层1640中的最后部分文本(例如,is)的GRU计算结果值可以通过丢弃层1630和全连接层1620,并且整个部分文本(例如,ta、day、wea、ther、is)的最终计算结果值可以由预测层1610预测。
作为本公开中的实施例提出的GRU可以是为改善RNN中的长期依赖性问题而提出的模型。GRU可以是通过进一步简化LSTM的结构而改善的模型。
图17图示了根据实施例的GRU模型的结构和方程。
参考图17,GRU模型可以使用两个门,例如复位门rt和更新门Zt。此外,单元状态和隐藏状态可以被组合以表示为一个隐藏状态。复位门和更新门可以通过图17所示的方程获得。用于获得复位门的方程可以将Sigmoid激活函数应用于先前时间点的隐藏状态ht-1和当前时间点的输入xt,以获得当前时间点的隐藏状态ht。当前时间点的隐藏状态ht的结果值可以具有在0和1范围中的值。输出到复位门rt的值可以再次应用于第三方程而非直接使用,并且可以通过将复位门rt乘以先前时间点的隐藏状态ht-1来计算方程。更新门Zt起到类似于LSTM输入、遗忘门的作用,并且可以获得将考虑多少先前信息和当前信息的比率。更新门可以通过利用图示的第一方程和第四方程来获得。
根据实施例,对于实时自然语言(NL)-EPD处理,电子设备101可以在内部包括使用双向门控循环单元(GRU)结构(即,不仅考虑先前上下文信息而且考虑下一上下文信息的双向结构)设计的深度学习模型(例如,图16的结构)。
根据实施例,在电子设备101中使用的双向GRU结构可以被设计成使得使用各种学习数据来正确地识别上下文信息。此外,双向GRU结构具有各种文本度量(准确度、F1分数-调和平均数、ROC曲线-总性能指数),并且可以被设计成产生在一般化性能方面稳健且优异的NL EPD模型。RNN结构可以具有LSTM结构和GRU结构,其中GRU具有比LSTM小大约0.25%的学习参数大小。在NL-EPD学习中,基本上可以使用GRU结构,因为看起来在性能方面没有显著差异。实时处理是自适应EPD中最重要的部分。因此,当即使使用GRU结构也不满足处理速度时,自主地构建推理引擎,使得深度学习结构被设计成通过应用如图所图示的三种类型的额外改善来提高速度。
根据实施例,部分文本可以具有其中文本被定期地发送和处理的结构。在这种情况下,独立地设计文本处理模块以限制冗余计算和不必要的计算,从而提高推理速度。能够执行实时处理的解决方案可以在学习中使用普通的深度学习框架(Tensorflow、PyTorch)并且通过基于C++自主地构建推理引擎来实现。由于消除了平台依赖性,基于C++的推理引擎的构建可以具有可用于各种框架的结构(Android java-JNI C++接口库任务、Window C++-Window intel x64构建库、Tizen C++-基于ARM的C++库)。
根据实施例,电子设备101可能需要重量轻,以及需要使用用于深度学习的模型实时进行处理。为此,可以通过优化词嵌入层(通过将人类使用的自然语言转换为作为机器可读数字的向量而获得的结果)来设计该电子设备,该词嵌入层是深度学习模型中的最重要部分(优化器字符嵌入(韩语、中文、日语)-嵌入配置有文本,量化混合嵌入(英语、西班牙语、德语、意大利语)-光嵌入可以通过基于词或BPE嵌入的量化将32位浮点嵌入值转换为8位定点来配置)。此外,当执行量化时,电子设备101可以执行学习和推理任务以最小化或减少性能恶化。
参考图18,可以对初始输入的部分文本1811、1812、1813、1814、1815和1816执行嵌入层1660、GRU前向层1650和GRU后向层1640中的计算。然而,已经被执行了一次计算的部分文本1821、1822、1823、1824、1825可以不进行嵌入层1660、GRU前向层1650和GRU后向层1640中的操作。
例如,当用户说出“text mom saying it’s hot today(给妈妈发短信,说今天很热)”时,在ASR的每个部分文本生成时间点处顺序地输入部分文本,并且可以对最初输入的部分文本1811、1812、1813、1814、1815和1816执行GRU计算。此后,即使从ASR输入已经执行了一次GRU计算的部分文本1811、1812、1813、1814、1815和1816,也不执行GRU计算,并且参考先前执行的操作值。由于它被设计成具有这种结构,所以可以提高处理速度。同时,当持续地输入相同的部分文本时,可以仅对新传送的部分文本执行GRU计算,并且先前获得的计算值可以用于剩余的部分文本。当在操作的中间校正和改变部分文本时,因为不可能使用先前的值,所以可以对包括新的部分文本的全文本执行GRU计算。
根据本公开的示例实施例,一种电子设备(例如,图1的电子设备101)可以包括:麦克风(例如,图4的MIC 450),该麦克风被配置成将通过话语从外部施加的信号转换为电音频信号并输出;存储器(例如,图4的存储器430);以及电耦接到麦克风和存储器的至少一个处理器(例如,图4的处理器410)。该存储器可以存储有指令(例如,图4的指令435),这些指令在被执行时使该至少一个处理器:基于从经由麦克风输入的音频信号顺序地识别的一个或更多个部分文本来识别输入音频信号的话语类型,基于所识别的话语类型来自适应地确定拖尾时间,以及通过应用拖尾时间来检测音频信号的话语的结束。输入的音频信号的话语类型可以对应于完整句子、不完整句子和模糊句子中的一者。完整句子可以指如下文本:在该文本中,指示执行操作的指令基于自然语言理解是可识别的。不完整句子可以指如下文本:在该文本中,指示执行操作的指令基于自然语言理解是不可识别的。模糊句子可以指未被分类为完整句子或不完整句子的文本。
根据本公开的示例实施例,存储器可以存储有指令,这些指令在被执行时使至少一个处理器:基于停顿被保持了拖尾时间,确定检测到话语的结束。
根据本公开的示例实施例,存储器可以存储有指令,这些指令在被执行时使至少一个处理器:在使用语音识别技术识别出话语类型是完整句子时,减少拖尾时间。
根据本公开的示例实施例,存储器可以存储有指令,这些指令在被执行时使至少一个处理器:在使用语音识别技术识别出话语类型是不完整句子时,增加拖尾时间。
根据本公开的示例实施例,存储器可以存储有指令,这些指令在被执行时使至少一个处理器:在使用语音识别技术识别出话语类型是模糊句子时,保持拖尾时间。
根据本公开的示例实施例,存储器可以存储有指令,这些指令在被执行时使至少一个处理器:基于直到拖尾时间流逝停顿一直被保持,处理将要作为机器语言输出的、从输入音频信号识别的全文本。
根据本公开的示例实施例,存储器可以存储有指令,这些指令在被执行时使至少一个处理器:连同所识别的话语类型,一起考虑用户特征数据来自适应地设置拖尾时间。用户特征数据可以包括指示语音速率、话语之间的停顿时间、停顿计数、用户性别、年龄、区域和情绪中的至少一者的程度的值。
根据本公开的示例实施例,存储器可以存储有指令,这些指令在被执行时使至少一个处理器:使用深度学习技术在存储器中累积用户特征数据。
根据本公开的示例实施例,存储器可以存储有指令,这些指令在被执行时使至少一个处理器:使用双向门控循环单元结构来确定从输入音频信号实时获得的部分文本或者先前获得的一个或更多个部分文本与实时获得的部分文本的组合是完整句子还是不完整句子;基于文本是完整句子,将拖尾时间设置为小于参考拖尾时间;基于文本是不完整句子,将拖尾时间设置为大于参考拖尾时间;并且基于文本是模糊句子,将拖尾时间设置为参考拖尾时间。
根据本公开的示例实施例,存储器可以存储有指令,这些指令在被执行时使至少一个处理器:使用深度学习技术学习完整句子或不完整句子,并基于学习在存储器中累积数据。
根据本公开的示例实施例,一种操作电子设备(例如,图1的电子设备101)的方法可以包括:基于从音频信号顺序地识别的一个或更多个部分文本识别输入音频信号的话语类型(例如,图5的操作510),该音频信号包括从通过话语从外部施加的信号转换而来的电信号;基于所识别的话语类型来自适应地确定拖尾时间(例如,图5的操作520);以及通过应用拖尾时间来检测音频信号的话语的结束(例如,图5的操作530)。输入音频信号的话语类型可以对应于完整句子、不完整句子和模糊句子中的一者。完整句子可以是如下文本:在该文本中,指示执行操作的指令基于自然语言理解是可识别的。不完整句子可以是如下文本:在该文本中,指示执行操作的指令基于自然语言理解是不可识别的。模糊句子可以是未被分类为完整句子或不完整句子的文本。
根据本公开的示例实施例,检测话语的结束的操作可以包括:基于停顿被保持了拖尾时间,确定检测到话语的结束。
根据本公开的示例实施例,自适应地确定拖尾时间可以包括:在使用语音识别技术识别出话语类型是完整句子时,减少拖尾时间。
根据本公开的示例实施例,自适应地确定拖尾时间还可以包括:在使用语音识别技术识别出话语类型是不完整句子时,增加拖尾时间。
根据本公开的示例实施例,自适应地确定拖尾时间还可以包括:在使用语音识别技术识别出话语类型是模糊句子时,保持拖尾时间。
根据本公开的示例实施例,该方法还可以包括:基于直到拖尾时间流逝停顿一直被保持,处理将要作为机器语言输出的、从输入音频信号识别的全文本。
根据本公开的示例实施例,该方法还可以包括:连同识别的话语类型,一起考虑用户特征数据来自适应地设置拖尾时间。用户特征数据可以包括指示语音速率、话语之间的停顿时间、停顿计数、用户性别、年龄、区域和情绪中的至少一者的程度的值。
根据本公开的示例实施例,该方法还可以包括:使用深度学习技术在存储器中累积用户特征数据。
根据本公开的示例实施例,识别话语类型可以包括:使用双向门控循环单元结构来确定从输入音频信号实时获得的部分文本或者先前获得的一个或更多个部分文本与实时获得的部分文本的组合是完整句子还是不完整句子。自适应地确定拖尾时间可以包括:基于文本是完整句子,将拖尾时间设置为小于参考拖尾时间;基于文本是不完整句子,将拖尾时间设置为大于参考拖尾时间;以及基于文本是模糊句子,将拖尾时间设置为参考拖尾时间。
根据本公开的示例实施例,该方法还可以包括:使用深度学习技术学习完整句子或不完整句子,并基于学习在存储器中累积数据。
基于在权利要求和/或公开中公开的实施例的方法可以以硬件、软件或两者的组合来实现。
当以软件实现时,可以提供用于存储一个或更多个程序(例如,软件模块)的计算机可读记录介质。存储在计算机可读记录介质中的一个或更多个程序被配置成由电子设备中的一个或更多个处理器执行。一个或更多个程序可以包括用于允许电子设备执行基于权利要求和/或公开中公开的实施例的方法的指令。
程序(例如,软件模块或软件)可以存储在随机存取存储器、包括闪存的非易失性存储器、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、磁盘存储设备、光盘-ROM(CD-ROM)、数字多功能光盘(DVD)或其他形式的光存储设备,以及盒式磁带中。可替代地,程序可以存储在被配置成与这些存储介质中的全部或一些组合的存储器中。此外,配置的存储器在数量上可以是复数。
此外,该程序可以存储在可附接的存储设备中,该可附接的存储设备能够通过诸如因特网、内联网、局域网(LAN)、广域网(WLAN)或存储区域网(SAN)的通信网络或通过组合上述网络而配置的通信网络来访问电子设备。存储设备可以具有经由外部端口对用于执行本公开的实施例的设备的入口。另外,通信网络上的额外存储设备可以具有对用于执行本公开的实施例的设备的入口。
保护范围由所附权利要求限定。额外特征由所附从属权利要求指定。示例实施方式可以实现为包括在任何和所有排列中共同地和分别地采用的任何权利要求的一个或更多个特征。
本公开中描述的示例包括对应于由所附独立权利要求指定的一个或更多个特征的部件的非限制性示例实施方式,并且这些特征(或它们的对应的部件)单独地或组合地可以有助于改进本领域技术人员从本公开中可推断出的一个或更多个技术问题。
此外,本公开中描述的任何一个示例的一个或更多个选择的部件可以与本公开中描述的任何其他一个或更多个示例的一个或更多个选择的部件组合,或者可替代地,可以与所附独立权利要求的特征组合以形成另一替换示例。
进一步的示例实施方式可以实现为包括在任何和所有排列中共同地和分别地采取的本文描述的任何实施方式的一个或更多个部件。还可以通过将所附权利要求中的一个或更多个的特征与本文描述的任何示例实施方式的一个或更多个选择的部件组合来实现进一步的示例实施方式。
在形成此类进一步的示例实施方式中,可以省略本公开中描述的任何示例实施方式的一些部件。可以省略的一个或更多个部件是本领域技术人员根据从本公开可辨别的技术问题将直接地和明确地识别为对于本技术的功能不是必不可少的那些部件。本领域技术人员将认识到,这种省略的部件的替换或移除不需要修改另外的替代示例的其他部件或特征来补偿该改变。因此,根据本技术,可以包括另外的示例实施方式,即使特征和/或部件的选择的组合没有在本公开中具体描述。
在可能的情况下,本公开的任何描述的示例实施方式中的两个或更多个物理上不同的部件可以替代地集成到单个部件中,只要由此形成的单个部件执行相同的功能。相反,在适当的情况下,本公开中描述的任何示例实施方式的单个部件可替代地实现为两个或更多个不同的部件以实现相同的功能。
在本公开的上述具体实施例中,根据本文提出的具体实施例,包括在本公开中的部件以单数或复数形式表达。然而,为了便于解释,针对提出的情况适当地选择单数或复数表达,并且因此本公开的各个实施例不限于单个或多个部件。因此,以复数形式表达的部件也可以以单数形式表达,反之亦然。
虽然已经参考本公开的某些优选实施例示出和描述了本公开,但是本领域技术人员将理解,在不脱离由所附权利要求限定的本公开的精神和范围的情况下,可以在其中进行形式和细节上的各种改变。因此,本公开的范围不由其详细说明书限定,而是由所附权利要求限定,并且在该范围的等同物内的所有差异将被解释为包括在本公开中。

Claims (15)

1.一种电子设备,所述电子设备包括:
麦克风,所述麦克风被配置成将通过话语从外部施加的信号转换为电音频信号并输出;
存储器;以及
至少一个处理器,所述至少一个处理器电耦接到所述麦克风和所述存储器,
其中,所述存储器存储有指令,所述指令在被执行时使所述至少一个处理器:
基于从经由所述麦克风输入的输入音频信号顺序地识别的一个或更多个部分文本来识别所述音频信号的话语类型;
基于所识别的话语类型来自适应地确定拖尾时间;以及
通过应用所述拖尾时间来检测所述音频信号的所述话语的结束,
其中,所述输入音频信号的话语类型对应于完整句子、不完整句子和模糊句子中的一者,
其中,所述完整句子是如下文本:在该文本中,指示执行操作的指令基于自然语言理解是可识别的,
其中,所述不完整句子是如下文本:在该文本中,指示执行操作的指令基于自然语言理解是不可识别的,并且
其中,所述模糊句子是未被分类为所述完整句子或所述不完整句子的文本。
2.根据权利要求1所述的电子设备,其中,所述存储器存储有指令,所述指令在被执行时使所述至少一个处理器:基于停顿被保持了所述拖尾时间,确定检测到所述话语的结束。
3.根据权利要求1所述的电子设备,其中,所述存储器存储有指令,所述指令在被执行时使所述至少一个处理器:在使用语音识别技术识别出所述话语类型是所述完整句子时,减少所述拖尾时间。
4.根据权利要求3所述的电子设备,其中,所述存储器存储有指令,所述指令在被执行时使所述至少一个处理器:在使用所述语音识别技术识别出所述话语类型是所述不完整句子时,增加所述拖尾时间。
5.根据权利要求4所述的电子设备,其中,所述存储器存储有指令,所述指令在被执行时使所述至少一个处理器:在使用所述语音识别技术识别出所述话语类型是所述模糊句子时,保持所述拖尾时间。
6.根据权利要求1所述的电子设备,其中,所述存储器存储有指令,所述指令在被执行时使所述至少一个处理器:基于直到所述拖尾时间流逝停顿一直被保持,处理将要作为机器语言输出的、从所述输入音频信号识别的全文本。
7.根据权利要求1所述的电子设备,其中,所述存储器存储有指令,所述指令在被执行时使所述至少一个处理器:连同所识别的话语类型,一起考虑特征数据来自适应地设置所述拖尾时间,其中,用户的特征数据是指示语音速率、话语之间的停顿时间、停顿计数、性别、年龄、区域和情绪中的至少一者的程度的值。
8.根据权利要求7所述的电子设备,其中,所述存储器存储有指令,所述指令在被执行时使所述至少一个处理器:使用深度学习技术在所述存储器中累积所述特征数据。
9.根据权利要求1所述的电子设备,其中,所述存储器存储有指令,所述指令在被执行时使所述至少一个处理器:
使用双向门控循环单元结构确定从所述输入音频信号实时获得的部分文本或者先前获得的一个或更多个部分文本与实时获得的部分文本的组合是所述完整句子还是所述不完整句子;
基于所述文本是所述完整句子,将所述拖尾时间设置为小于参考拖尾时间;
基于所述文本是所述不完整句子,将所述拖尾时间设置为大于所述参考拖尾时间;以及
基于所述文本是所述模糊句子,将所述拖尾时间设置为所述参考拖尾时间。
10.根据权利要求9所述的电子设备,其中,所述存储器存储有指令,所述指令在被执行时使所述至少一个处理器:使用深度学习技术学习所述完整句子或所述不完整句子,并基于所述学习在所述存储器中累积数据。
11.一种操作电子设备的方法,所述方法包括:
基于从输入音频信号顺序地识别的一个或更多个部分文本来识别音频信号的话语类型,所述音频信号包括从通过话语从外部施加的信号转换而来的电信号;
基于所识别的话语类型来自适应地确定拖尾时间;以及
通过应用所述拖尾时间来检测所述音频信号的所述话语的结束,
其中,所述输入音频信号的话语类型对应于完整句子、不完整句子和模糊句子中的一者,
其中,所述完整句子是如下文本:在该文本中,指示执行操作的指令基于自然语言理解是可识别的,
其中,所述不完整句子是如下文本:在该文本中,指示执行操作的指令基于自然语言理解是不可识别的,并且
其中,所述模糊句子是未被分类为所述完整句子或所述不完整句子的文本。
12.根据权利要求11所述的方法,其中,检测所述话语的结束包括:基于停顿被保持了所述拖尾时间,确定检测到所述话语的结束。
13.根据权利要求11所述的方法,其中,自适应地确定所述拖尾时间包括:在使用语音识别技术识别出所述话语类型是所述完整句子时,减少所述拖尾时间。
14.根据权利要求13所述的方法,其中,自适应地确定所述拖尾时间包括:在使用所述语音识别技术识别出所述话语类型是所述不完整句子时,增加所述拖尾时间。
15.根据权利要求14所述的方法,其中,自适应地确定所述拖尾时间包括:在使用所述语音识别技术识别出所述话语类型是所述模糊句子时,保持所述拖尾时间。
CN202280013646.6A 2021-02-04 2022-02-04 支持语音识别的电子设备及其操作方法 Pending CN116868266A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
KR1020210016321A KR20220112596A (ko) 2021-02-04 2021-02-04 음성 인식을 지원하는 전자 장치 및 그 동작 방법
KR10-2021-0016321 2021-02-04
PCT/KR2022/001762 WO2022169301A1 (ko) 2021-02-04 2022-02-04 음성 인식을 지원하는 전자 장치 및 그 동작 방법

Publications (1)

Publication Number Publication Date
CN116868266A true CN116868266A (zh) 2023-10-10

Family

ID=82742420

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202280013646.6A Pending CN116868266A (zh) 2021-02-04 2022-02-04 支持语音识别的电子设备及其操作方法

Country Status (5)

Country Link
US (1) US20230368781A1 (zh)
EP (1) EP4273856A4 (zh)
KR (1) KR20220112596A (zh)
CN (1) CN116868266A (zh)
WO (1) WO2022169301A1 (zh)

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9666192B2 (en) * 2015-05-26 2017-05-30 Nuance Communications, Inc. Methods and apparatus for reducing latency in speech recognition applications
KR20180084394A (ko) * 2017-01-17 2018-07-25 삼성전자주식회사 발화 완료 감지 방법 및 이를 구현한 전자 장치
US10636421B2 (en) * 2017-12-27 2020-04-28 Soundhound, Inc. Parse prefix-detection in a human-machine interface
US10943606B2 (en) * 2018-04-12 2021-03-09 Qualcomm Incorporated Context-based detection of end-point of utterance
US10490207B1 (en) * 2018-05-11 2019-11-26 GM Global Technology Operations LLC Automated speech recognition using a dynamically adjustable listening timeout
KR102086601B1 (ko) * 2018-08-10 2020-03-09 서울대학교산학협력단 담화 성분과 화행을 고려한 한국어 대화체 코퍼스 분류 방법 및 시스템
KR20200041199A (ko) * 2018-10-11 2020-04-21 삼성생명보험주식회사 챗봇 구동 방법, 장치 및 컴퓨터 판독가능 매체
KR20200109843A (ko) * 2019-03-14 2020-09-23 주식회사 포지큐브 스피치 인식 방법

Also Published As

Publication number Publication date
EP4273856A4 (en) 2024-05-29
EP4273856A1 (en) 2023-11-08
US20230368781A1 (en) 2023-11-16
KR20220112596A (ko) 2022-08-11
WO2022169301A1 (ko) 2022-08-11

Similar Documents

Publication Publication Date Title
CN110838289B (zh) 基于人工智能的唤醒词检测方法、装置、设备及介质
US11170788B2 (en) Speaker recognition
CN107481718B (zh) 语音识别方法、装置、存储介质及电子设备
CN111833845B (zh) 多语种语音识别模型训练方法、装置、设备及存储介质
KR20190123362A (ko) 인공지능을 이용한 음성 대화 분석 방법 및 장치
CN111341325A (zh) 声纹识别方法、装置、存储介质、电子装置
US11705105B2 (en) Speech synthesizer for evaluating quality of synthesized speech using artificial intelligence and method of operating the same
CN113643693B (zh) 以声音特征为条件的声学模型
US11398219B2 (en) Speech synthesizer using artificial intelligence and method of operating the same
CN111462756B (zh) 声纹识别方法、装置、电子设备及存储介质
US11417313B2 (en) Speech synthesizer using artificial intelligence, method of operating speech synthesizer and computer-readable recording medium
CN110570840A (zh) 一种基于人工智能的智能设备唤醒方法和装置
CN111326152A (zh) 语音控制方法及装置
CN110853669B (zh) 音频识别方法、装置及设备
CN116868266A (zh) 支持语音识别的电子设备及其操作方法
US11393447B2 (en) Speech synthesizer using artificial intelligence, method of operating speech synthesizer and computer-readable recording medium
CN113920997A (zh) 语音唤醒方法、装置、电子设备及作业机械
KR20220086265A (ko) 전자 장치 및 전자 장치의 동작 방법
CN112037772A (zh) 基于多模态的响应义务检测方法、系统及装置
US20240135925A1 (en) Electronic device for performing speech recognition and operation method thereof
US20240104311A1 (en) Hybrid language translation on mobile devices
US20230267925A1 (en) Electronic device for generating personalized automatic speech recognition model and method of the same
US20220383877A1 (en) Electronic device and operation method thereof
US20240112676A1 (en) Apparatus performing based on voice recognition and artificial intelligence and method for controlling thereof
US20230419962A1 (en) System and method for speaker verification for voice assistant

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination