CN112825249A - 语音处理方法和设备 - Google Patents

语音处理方法和设备 Download PDF

Info

Publication number
CN112825249A
CN112825249A CN202010535103.3A CN202010535103A CN112825249A CN 112825249 A CN112825249 A CN 112825249A CN 202010535103 A CN202010535103 A CN 202010535103A CN 112825249 A CN112825249 A CN 112825249A
Authority
CN
China
Prior art keywords
named entity
standard
speech
expressions
candidate sentences
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010535103.3A
Other languages
English (en)
Inventor
朴贞训
李知炫
李镐式
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of CN112825249A publication Critical patent/CN112825249A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/081Search algorithms, e.g. Baum-Welch or Viterbi
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

公开了一种语音处理方法和设备。所述语音处理方法包括:执行语音信号的语音识别;生成多个第一候选句子作为执行语音识别的结果;辨识所述多个第一候选句子中的每个中的各个命名实体;使用对应的命名实体的音素来确定与辨识的各个命名实体对应的标准表达;基于命名实体和与命名实体对应的标准表达之间的相似度,确定是否用确定的标准表达替换所述多个第一候选句子中的每个中的辨识的命名实体,并且基于确定结果确定多个第二候选句子;和输出从所述多个第二候选句子选择的最终句子。

Description

语音处理方法和设备
本申请要求于2019年11月19日在韩国知识产权局提交的第10-2019-0148441号韩国专利申请的权益,所述韩国专利申请的全部公开出于所有目的通过引用包含于此。
技术领域
下面的描述涉及语音处理方法和设备。
背景技术
语音识别技术识别用户的语音。通过语音识别,将用户的语音或音频输出转换成文本。随着语音识别技术的发展,用户向装置发出语音命令的期望日益增加。
然而,由于执行语音识别的模型的有限学习数据和可能影响语音信号的环境噪声的影响,最佳性能可能不被保证。
发明内容
提供本发明内容以便以简化的形式介绍以下在具体实施方式中进一步描述的构思的选择。本发明内容不意在确定要求权利的主题的关键特征或必要特征,也不意在用于帮助确定要求权利的主题的范围。
在一个总体方面,一种处理器实现的方法包括:执行语音信号的语音识别;生成多个第一候选句子作为执行语音识别的结果;辨识所述多个第一候选句子中的每个中的各个命名实体;使用对应的命名实体的音素来确定与辨识的各个命名实体对应的标准表达;基于命名实体和与命名实体对应的标准表达之间的相似度,确定是否用确定的标准表达替换所述多个第一候选句子中每个中的辨识的命名实体,并且基于确定结果确定多个第二候选句子;和输出从所述多个第二候选句子选择的最终句子。
确定标准表达的步骤可包括:基于使用包括在对应的命名实体中的音素执行的倒排索引搜索,确定与在辨识命名实体的步骤中辨识的每个各个命名实体对应的标准表达。
确定标准表达的步骤可包括:基于多个标准表达的倒排索引表,基于对应的命名实体的包括的音素的数量和确定的包括的音素的重要性级别,从所述多个标准表达选择最相似的标准表达。
倒排索引表可以是根据基于音素的倒排索引方案对所述多个标准表达进行索引获得的表。
所述多个标准表达可包括由用户先前指定的表达。
输出最终句子的步骤可包括:根据基于标准表达训练的语言模型,输出第二候选句子之中的被确定为最精确地对应于用户的语音信号的句子作为最终句子。
确定标准表达的步骤可包括:基于语音信号的分析确定语音信号的域,并且从与确定的域对应的多个标准表达确定与每个命名实体对应的标准表达。
语音信号的域可包括分别存储在用户的装置中的联系人、应用、音乐标题和音乐艺术家中的至少一个和/或分别存储在另一装置中的联系人、应用、音乐标题和音乐标题中的至少一个。
确定对应的标准表达的步骤可包括:基于作为在辨识命名实体的步骤中辨识的每个命名实体的包括的音素的数量和包括的音素的重要性级别,以相似度顺序从多个标准表达确定k个对应的标准表达,确定分别对应的命名实体与k个对应的标准表达中的每个标准表达之间的相似度是否大于或等于阈值,并且从具有确定的大于或等于阈值的相似度的标准表达选择j个最相似的标准表达,其中,k是自然数,j是1与k之间的自然数。
在所述多个第一候选句子中的每个中,可基于对应的第一候选句子的确定的类型来辨识命名实体和命名实体的域中的一个或两个。
生成所述多个第一候选句子的步骤可包括:基于用户的语音信号的语音识别来生成具有最高识别率的N个第一候选句子,其中,N是大于或等于2的自然数。
输出最终句子的步骤可包括:基于输出的最终句子来控制用户的装置的操作。
可以以与表示所述多个第一候选句子的语言相比相同的语言和不同的语言中的一者来表示标准表达。
相似度可以是每个命名实体与对应的标准表达之间的基于音素的相似度。
所述方法可包括在用户的装置处捕获语音信号。
在一个总体方面,一种处理设备包括:一个或多个处理器,被配置为:执行语音信号的语音识别;生成多个第一候选句子作为执行的语音识别的结果;辨识所述多个第一候选句子中的每个中的各个命名实体;使用对应的命名实体的音素来确定与辨识的命名实体对应的标准表达;基于命名实体和与命名实体对应的标准表达之间的相似度,确定是否用确定的标准表达替换所述多个第一候选句子中的每个中的辨识的命名实体并且基于确定结果来确定多个第二候选句子;和输出从所述多个第二候选句子选择的最终句子。
所述一个或多个处理器可被配置为:基于使用包括在对应的命名实体中的音素执行的倒排索引搜索来确定与在辨识命名实体的步骤中辨识的每个各个命名实体对应的标准表达。
所述一个或多个处理器可被配置为:根据基于标准表达训练的语言模型来输出第二候选句子之中的被确定为最精确地对应于用户的语音信号的句子作为最终句子。
所述一个或多个处理器可被配置为:基于语音信号的分析确定语音信号的域,并且从与确定的域对应的多个标准表达确定与每个命名实体对应的标准表达。
所述一个或多个处理器可被配置为:基于作为在辨识命名实体的步骤中辨识的每个命名实体的包括的音素的数量和包括的音素的重要性级别,以相似度顺序从多个标准表达确定k个对应的标准表达,确定分别对应的命名实体与k个对应的标准表达中的每个标准表达之间的相似度是否大于或等于阈值,和从具有确定的大于或等于阈值的相似度的标准表达选择j个最相似的标准表达,其中,k是自然数,j是1与k之间的自然数。
所述设备可以是智能电话、智能扬声器和自动驾驶车辆中的任何一种,并且还包括包含麦克风的通信接口。
所述设备还可包括:通信接口,被配置为接收用户的语音信号。
在一个总体方面,一种处理器实现的方法包括:生成多个候选句子作为对语音信号执行语音识别的结果;辨识所述多个候选句子中的每个中的命名实体;使用对应的命名实体的音素来确定与辨识的命名实体对应的标准表达;基于命名实体和与命名实体对应的标准表达之间的相似度,选择性地将命名实体保持在与候选句子之一对应的最终输出的句子中。
在一个总体方面,一种语音处理设备包括:一个或多个处理器,被配置为:获取用户的语音信号;生成多个候选句子作为对接收的语音信号执行的语音识别的结果;辨识所述多个第一候选句子的每个中的命名实体;使用对应的命名实体的音素来确定与辨识的命名实体对应的标准表达;和基于命名实体和与命名实体对应的标准表达之间的相似度,选择性地将命名实体保持在与候选句子之一对应的最终输出的句子中。
在一个总体方面,一种处理器实现的方法包括:对语音信号执行语音识别操作;生成一个或多个第一候选句子作为执行的语音识别的结果;从一个或多个识别的第一候选句子确定一个或多个命名实体;确定与所述一个或多个命名实体中的每个对应的标准表达;确定所述一个或多个命名实体中的每个与标准表达式之间的相似度;基于确定的相似度,通过将命名实体中的至少一个改变为标准表达,或者保持命名实体中的每个来生成多个第二候选句子;基于语言模型从所述多个第二候选句子确定最终句子,并输出确定的最终句子。
每个命名实体与标准表达之间的相似度可以基于音素来确定。
从下面的具体实施方式、附图以及权利要求,其它特征和方面将是清楚的。
附图说明
图1示出根据一个或多个实施例的示例语音处理设备。
图2示出根据一个或多个实施例的示例语音处理设备。
图3示出根据一个或多个实施例的倒排索引(inverted index)的示例。
图4示出根据一个或多个实施例的确定候选句子的示例处理。
图5示出根据一个或多个实施例的确定候选句子的示例处理。
图6示出根据一个或多个实施例的确定与每个命名实体对应的多个标准表达的示例处理。
图7示出根据一个或多个实施例的基于语音信号的域来确定标准表达的示例。
图8是示出根据一个或多个实施例的语音处理设备的示例操作的流程图。
图9示出根据一个或多个实施例的示例语音处理设备。
图10示出根据一个或多个实施例的示例语音处理方法。
贯穿附图和具体实施方式,除非另外描述或提供,否则相同的附图参考标号将被理解为表示相同的元件、特征和结构。附图可不按比例,并且为了清楚、说明和方便,附图中的元件的相对尺寸、比例和描绘可被夸大。
具体实施方式
提供下面的具体实施方式以帮助读者获得对在此描述的方法、设备和/或系统的全面理解。然而,在理解本申请的公开之后,在此描述的方法、设备和/或系统的各种改变、修改和等同物将是清楚的。例如,在此描述的操作的顺序仅是示例,并且不限于在此阐述的那些顺序,而是除了必须以特定的顺序发生的操作之外,操作的顺序可如在理解本申请的公开之后将是清楚的那样被改变。此外,为了更加清楚和简明,可省略在理解申请的公开之后已知的特征的描述,注意,省略特征及其描述也不意在承认其常识性。
在此描述的特征可以以不同的形式来实现,而不被解释为限于在此描述的示例。相反,在此描述的示例已被提供,以仅示出实现在理解本申请的公开之后将是清楚的在此描述的方法、设备和/或系统的许多可行方式中的一些可行方式。
如在此使用的,术语“和/或”包括相关联的所列项中的任意一个和任意两个或更多个的任意组合。
尽管在此可使用诸如“第一”、“第二”和“第三”的术语来描述各种构件、组件、区域、层或部分,但是这些构件、组件、区域、层或部分不被这些术语所限制。相反,这些术语仅用于将一个构件、组件、区域、层或部分与另一构件、组件、区域、层或部分区分开。因此,在不脱离示例的教导的情况下,在此描述的示例中所称的第一构件、第一组件、第一区域、第一层或第一部分也可被称为第二构件、第二组件、第二区域、第二层或第二部分。
贯穿说明书,当诸如层、区域或基底的元件被描述为“在”另一元件“上”、“连接到”或“结合到”另一元件时,所述元件可直接“在”所述另一元件“上”、“连接到”或“结合到”所述另一元件,或者可存在介于它们之间的一个或多个其它元件。相反,当元件被描述为“直接在”另一元件“上”、“直接连接到”或“直接结合到”另一元件时,可不存在介于它们之间的其它元件。
在此使用的术语仅用于描述各种示例的目的,并不是对示例的限制。除非上下文另外清楚地指示,否则单数形式也意在包括复数形式。还将理解,术语“包含”和/或“包括”当在此使用时,说明存在陈述的特征、数量、操作、构件、元件和/或它们的组合,但不排除存在或添加一个或多个其它特征、数量、操作、构件、元件和/或它们的组合。
除非另有定义,否则在此使用的所有术语(包括技术术语和科学术语)具有与由本公开所属领域的普通技术人员通常理解的含义和在理解本申请的公开之后理解的含义相同的含义。除非在此明确地如此定义,否则术语(诸如,在通用词典中定义的术语)将被解释为具有与它们在相关领域的上下文和本申请的公开中的含义一致的含义,并且将不被以理想化或过于形式化的含义解释。
图1和图2示出根据一个或多个实施例的示例语音处理设备。
图1示出语音处理设备100的示例。语音处理设备100是处理用户的语音信号的设备。语音处理设备100可识别输入的语音信号,并且确定与语音信号对应的句子。例如,用户可说出“call○○○”来与联系号码被存储在装置中的朋友通话。在一个非限制性示例中,“○○○”可以是包括在识别的句子或语音话语中的命名实体(named entity),并且可表示联系方式被存储在用户终端中的朋友的名称。因此,期望命名实体被准确地识别。在另一非限制性示例中,“○○○”可以是标识特定个体的电话号码或其他标记。使用语音识别模型来执行语音识别,因此由于用于训练语音识别模型的有限数量的学习数据(例如,独立于这样的存储的表达),并且由于诸如语音信号的环境噪声的因素,作为语音识别结果而获得的句子中的命名实体可能与存储的表达不同。
这里,存储的表达或实体可以是存储在例如用户终端的联系人文件夹中的表达或实体,并可由用户预先确定。因此,通过用典型表达替换包括在被识别的句子或语音话语中的命名实体,可确定正确反映用户意图的最终句子。此外,可随后执行基于最终句子或最终语音话语的操作。另外,根据一个或多个实施例,除了语音识别以外,语音处理设备100可应用于作为非限制性示例的机器翻译、机器解释和聊天机器人系统。
在一个示例中,语音处理设备100可被实现为与由用户控制的用户终端不同并且分离的单独的设备(例如,远程服务器)。作为示例,可通过有线网络和/或无线网络执行语音处理设备100与用户终端之间的通信。用户的语音信号可在用户终端被捕获或接收,并从用户终端通过有线网络和/或无线网络被发送到语音处理设备100。然后在语音处理设备100中确定的最终句子可被发送到用户终端。
在一个非限制性示例中,用户可提供语音命令以与在用户装置上显示的内容进行交互。用户装置的麦克风可捕获与语音命令对应的音频信号,并且可生成对应的语音信号。在一个示例中,语音数据可被发送到远程服务器,远程服务器可对语音信号执行语音识别。可选择地,可在用户装置上执行语音识别。根据在此讨论的一个或多个示例,远程服务器或用户装置可基于语音信号利用自然语言处理技术,以确定与语音命令对应的一个或多个意图。根据在此讨论的一个或多个示例,远程服务器或用户装置可执行命名实体识别以识别语音数据的与命名实体对应的部分,该命名实体可以被远程服务器或用户装置识别。
此外,可在用户终端中执行基于最终句子的操作。根据在此讨论的一个或多个示例,作为非限制性示例,用户终端可包括各种计算装置(诸如,智能电话、个人计算机(PC)、平板PC以及膝上型计算机)、各种可穿戴装置(诸如,智能手表和智能眼镜)、各种家用电器(诸如,智能扬声器、智能TV、智能冰箱)、智能汽车、智能自助服务机、自动驾驶车辆、机器人以及物联网(IoT)装置。通过语音处理设备100,包括响应于用户的话音命令来控制用户终端的人工智能(AI)助手的示例可被实现。
在一个非限制性示例中,语音处理设备100和用户终端可被实现为单个装置,使得语音处理设备100可通过直接采集用户的语音信号并执行语音处理设备100的操作来确定最终句子。语音信号可以是包括单个句子的语音序列、包括多个句子的语音序列,或者句子可以是短语。这里,针对示例或实施例使用术语“可”(例如,关于示例或实施例可包括或实现什么)表示存在包括或实现这样的特征的至少一个示例或实施例,而所有示例和实施例不限于此。
参照图2,语音处理设备200可对捕获的或接收到的语音信号执行语音识别处理210。例如,语音识别处理210可使用编码器-解码器结构中的语音识别模型来执行。
语音识别模型是包括多个层的神经网络。作为非限制性示例,神经网络可以是深度神经网络(DNN)。DNN可包括多个层。例如,深度神经网络可包括:被施加输入数据的输入层、用于输出通过基于训练和输入数据的预测而得到的结果的输出层、以及输入层与输出层之间的用于执行神经网络运算的多个隐藏层。在这样的示例中,根据用于处理信息的算法,DNN可以是全连接网络、卷积神经网络、递归神经网络等中的一个或多个,或者DNN可包括分别具有这样的全连接、卷积连接或递归连接的不同或重叠的神经网络部分。作为非限制性示例,神经网络可被配置为通过例如基于深度学习以非线性关系将输入的语音或话音数据与输出语音或话音数据相互映射,来执行语音识别和话音识别。作为非限制性示例,这样的深度学习指示用于根据数据集解决问题(诸如,与自动图像识别或语音识别相关的问题)的处理器实现的机器学习方案。
神经网络可包括编码器和解码器。编码器可基于从给定语音信号提取的特征向量来确定上下文信息。上下文信息可以是例如作为包含语音信号的含义等的概要信息的向量序列。解码器可基于上下文信息生成与语音识别结果对应的多个句子。例如,解码器可例如基于N-best技术生成具有语音信号的最高识别率的N个句子作为语音识别的最终结果,N是大于或等于2的自然数。为了便于说明,从语音识别产生的N个句子在下文中将仅被称为“第一候选”句子。
语音处理设备200可针对多个第一候选句子中的每个执行下面的示例操作。作为非限制性示例,语音处理设备200可以是用户装置(例如,智能电话、PC、膝上型计算机和/或自动驾驶车辆),或者可选择地可以是服务器。语音处理设备200可使用命名实体检测器220针对第一候选句子中的每个来辨识命名实体。例如,语音处理设备200可基于确定的句子类型辨识命名实体。语音处理设备200可从命名实体数据库230检索与辨识的命名实体对应的标准表达。命名实体数据库230可包括用于多个标准表达的倒排索引表,使得最相似的标准(或预定的)表达基于包括在被辨识的命名实体中的包括的音素的数量和包括的音素的重要性级别来检索。
基于第一候选句子中的命名实体与对应的标准表达之间的相似度,语音处理设备可用与第一候选句子中的命名实体对应的标准表达替换每个第一候选句子中的命名实体、或者可保持命名实体,从而执行改进(refinement)240,以确定与每个第一候选句子对应的第二候选句子。第一候选句子中的命名实体与对应的标准表达之间的相似度可基于音素来确定。通过针对多个第一候选句子中的每个执行前述操作,多个第二候选句子可被确定。
语音处理设备200可通过执行再评分(rescoring)处理250,从多个第二候选句子选择最终句子。可使用基于标准表达训练的语言模型来执行再评分处理250。通过再评分处理250,可从多个第二候选句子选择最准确地反映用户说出的内容的最自然的第二候选句子作为最终句子。作为非限制性示例,语言模型可由语音处理设备200通过例如语音处理设备200的一个或多个处理器来执行,语音处理设备200的一个或多个处理器将语言模型连同所有或一些相关的数据库信息一起存储在语音处理设备200的存储器中。例如,语音处理设备200的存储器可存储指令,所述指令在由一个或多个处理器执行时配置所述一个或多个处理器执行语言模型和在此讨论的一个或多个或所有操作。
这样,可通过对多个第二候选句子执行再评分250来确定最终句子,其中,通过基于命名实体与对应的标准表达之间的相似度,用对应的标准表达替换每个第一候选句子中的命名实体或者保持命名实体来确定多个第二候选句子。此外,通过考虑通过改进240获取的第二候选句子的质量可基于N-Best解码结果而改变的事实,选择更佳的最终句子的概率可最大化。
图3示出根据一个或多个实施例的倒排索引的示例。
图3示出字素到音素(G2P)转换处理310和倒排索引表320的示例。关于语音特征,特定域的语音模型可被应用以提取特征。具体地,双变音位(double metaphone)或G2P模型或算法可被应用以提取语音特征。G2P模型是将一组输入字符转换为音素(语音单位)的神经机器翻译模型。具体地,G2P模型可以是序列到序列的深度学习模型。
用于检索与命名实体对应的标准表达的倒排索引表320可被确定。具体地,多个标准表达可被收集。
多个标准表达可以是预定的改进名称,并且可包括例如由用户指定的个性化名称和/或广泛使用的通用名称。个性化名称可包括由用户指定的各种名称,例如,存储在用户终端的联系人文件夹中的名或姓、别名、昵称等以及用于用户注册的另一装置(例如,智能家电、IoT装置等)的名或姓、别名、昵称或确定的名称。通用名称可包括由除用户之外的艺术家、制造商和开发者指定的各种一般名称,例如,安装在用户终端中的应用的名称、音乐艺术家和音乐标题。可在检索与命名实体对应的标准表达之前收集多个标准表达或一般表达。在一些示例中,可周期性地或响应于预定事件的发生来更新多个标准表达。
可基于G2P转换将每个标准表达转换成一个或多个音素。例如,标准表达“JohnLennon”可被转换成音素“c0 oo llrr ee nn oo nf”,并且标准表达“Colleen McCauley”被转换成音素“kh oo llrr iinf mmqq kh oo llrr ii”。
此外,可使用通过G2P转换获取的音素作为键(key)并使用对应的标准表达作为值来确定倒排索引表320。例如,标准表达“John Lennon”的音素“c0 oo llrr ee nn oo nf”中的每个是键,并且标准表达“John Lennon”是与键对应的值。类似地,标准表达“ColleenMcCauley”的音素“kh oo ll rr ii nf mm qq kh oo ll rr ii”中的每个是键,并且标准表达“Colleen McCauley”是与键对应的值。当使用音素“c0”作为关键词来搜索确定的倒排索引表320时,包括音素“c0”的所有标准表达(例如,标准表达“John Lennon”)可被检索到。此外,当使用音素“oo”作为关键词来搜索确定的倒排索引表320时,包括音素“oo”的所有标准表达(例如,标准表达“John Lennon”和“Colleen McCauley”)可被检索到。
当语音处理设备从倒排索引表320选择与第一候选句子中辨识的命名实体“JohnLennon”对应的标准表达时,通过G2P转换,将命名实体“John Lennon”转换成多个音素“c0oo ll rr ee nn oo nf”。此外,基于使用多个音素“c0 oo ll rr ee nn oo nf”作为关键词执行的倒排索引搜索,可基于包括的音素的数量和包括的音素的重要性来选择最相似的标准表达。例如,在使用多个音素“c0 oo ll rr ee nn oo nf”作为关键词执行的倒排索引搜索中,“Colleen McCauley”被匹配5次,并且“John Lennon”被匹配8次(这是最大的匹配次数),因此标准表达“John Lennon”被选择。
这样,通过预先基于音素对多个标准表达进行索引,即使对于搜索众多命名实体的大量搜索,也可保持高检索速度。
图4和图5分别示出根据一个或多个实施例的确定第二候选句子的处理的示例。
参照图4,可从多语言语音信号确定多个第二候选句子。在图4的示例中,假设用户以韩语说出包括例如英语名称的语音信号。
在操作410中,可通过语音信号的语音识别来确定具有最高识别率的四个第一候选句子。由于用户以韩语说出语音信号,因此可基于韩语来识别包括英语名称的整个语音信号。如图4中所示,因为英语名称基于韩语来进行语音识别,所以英语名称的识别率相对低。在一些示例中,间距(spacing)也可被错误地识别。
在操作410中,在四个第一候选句子中的每个中辨识命名实体。为了便于描述,如图4中所示,将辨识的命名实体加下划线。换句话说,“Colleen Nacolley”、“Colleen NaeColley”、“Colleen Nae Quali”以及“Curling Naccurine”被辨识为第一候选句子中的命名实体。
在操作420中,通过G2P转换将命名实体转换成多个音素。例如,命名实体“ColleenNacolley”被转换成音素“kh oo ll rr ii nf nn qq kh oo ll rr ii”,命名实体“Colleen Nae Colley”被转换成音素“kh oo ll rr ii nf nn qq kh oo ll rr ii”,命名实体“Colleen Nae Quali”被转换成音素“kh oo ll rr ii nf nn qq kk oo ll rr ii”,并且命名实体“Curling Naccurine”被转换成音素“kh vv ll rr ii ng nn qq kf kh vvrr ii nf”。
在操作430中,使用对应的命名实体的音素来检索与每个命名实体对应的标准表达。使用包括在命名实体中的音素作为关键词来执行倒排索引搜索,使得与每个命名实体对应的标准表达被检索。例如,使用多个标准表达的倒排索引表,以基于每个命名实体的包括的音素的数量和包括的音素的重要性,以相似度顺序从多个标准表达获得k个标准表达,k是大于0的自然数。在这个示例中,基于词频-逆向文件频率(TF-IDF)的搜索被使用。在“TF-IDF”中,TF表示包括在每个标准表达中的对应的命名实体的音素的数量,IDF表示每个音素的重要性。
在图4的示例中,在操作430中,“Colleen McCauley”和“Karen Downey”被顺序地检索为与四个命名实体对应的两个标准表达。在一些示例中,与每个命名实体对应的标准表达和/或标准表达的顺序可变化。在图4的示例中,为了便于描述,假设针对四个命名实体获得相同的搜索结果。
在操作440中,可从与每个命名实体对应的标准表达,选择与对应的命名实体最相似的一个标准表达。为了这样的选择,可确定命名实体与标准表达之间的基于音素的相似度。可基于每个命名实体和标准表达的音素序列的编辑距离(edit distance)来确定相似度。随着音素序列的编辑距离减小,较高的相似度可被确定。
在命名实体“Colleen Nacolley”的示例中,命名实体“Colleen Nacolley”与标准表达“Colleen McCauley”之间的第一相似度基于“Colleen Nacolley”的音素序列与“Colleen McCauley”的音素序列之间的编辑距离来确定。此外,命名实体“ColleenNacolley”与标准表达“Karen Downey”之间的第二相似度基于“Colleen Nacolley”的音素序列与“Karen Downey”的音素序列之间的编辑距离来确定。第一相似度大于第二相似度。标准表达“Colleen McCauley”被选择为与命名实体“Colleen Nacolley”对应的标准表达。同样地,可对剩余的第一候选句子执行前述操作。
在操作450中,确定每个命名实体与对应的标准表达之间的相似度是否大于或等于阈值。当相似度大于或等于阈值时(例如,当条件检查通过时),命名实体被改变为对应的第一候选句子中的对应的标准表达。相反地,当相似度小于阈值时(例如,当条件检查失败时),命名实体被保持在第一候选句子中,而不用对应的标准表达进行替换。
通过这样的改进,四个第二候选句子可被确定。可对这四个第二候选句子执行基于语言模型的再评分。通过再评分处理,一个最终句子可被确定,然后可被输出为最终语音识别结果。
因此,通过经由G2P转换处理将包括在每个第一候选句子中的命名实体转换成音素,使用命名实体的音素从倒排索引表检索对应的标准表达,基于音素确定检索的标准表达与命名实体之间的相似度,以及确定是否用标准表达替换命名实体,可达到对于语音识别中可能发生的间距错误和多语言识别错误的语音识别鲁棒性。
参照图5,可从单语言语音信号确定多个第二候选句子。在图5的示例中,假设用户以英语语言说出包括英语名称的语音信号。
在操作510中,可基于语音信号的语音识别来确定具有最高识别率的N个第一候选句子。尽管为了便于描述,图5示出N个第一候选句子之一,但是下面的描述也适用于剩余的第一候选句子。
可在语音识别的第一候选句子中辨识命名实体。为了便于描述,如图5中所示,将辨识的命名实体加下划线。例如,在对应的第一候选句子中辨识“Choline McCauley”。
在操作520中,通过G2P转换将辨识的命名实体转换成多个音素。在一个示例中,命名实体“Choline McCauley”被转换成音素“kh oo ll rr ii nf nn qq kh oo ll rr ii”。
在操作530中,可使用命名实体的音素检索与命名实体对应的标准表达。可使用包括在命名实体中的音素作为关键词或者搜索查询来执行倒排索引搜索。作为结果,在多个标准表达之中,基于命名实体的包括的音素的数量和包括的音素的重要性,以相似度顺序获得k个标准表达。在图5的示例中,与命名实体“Choline McCauley”对应的两个标准表达以“Colleen McCauley”和“Karen Downey”的顺序被检索到。
在操作540中,可从与命名实体对应的标准表达选择与命名实体最相似的标准表达。可基于命名实体与标准表达之间的基于音素的相似度来执行选择。可基于命名实体和标准表达的音素序列的编辑距离来确定相似度。
在一个示例中,基于命名实体“Choline McCauley”的音素序列与标准表达“Colleen McCauley”的音素序列之间的编辑距离,它们之间的第一相似度被确定。此外,基于命名实体“Choline McCauley”的音素序列与标准表达“Karen Downey”的音素序列之间的编辑距离,它们之间的第二相似度被确定。第一相似度可被确定为大于第二相似度。标准表达“Colleen McCauley”然后被选择为与命名实体“Choline McCauley”对应的标准表达。
在操作550中,基于命名实体与选择的标准表达之间的相似度是否大于或等于阈值来执行条件检查。当相似度大于或等于阈值时,在第一候选句子中将命名实体改变为选择的标准表达。相反地,当相似度小于阈值时,在第一候选句子中保持命名实体,而不用选择的标准表达进行替换。通过这样的改进,第二候选句子可被确定。
针对通过语音识别获得的N个第一候选句子中的每个执行前述操作,使得N个第二候选句子被确定。从它们之中,一个最终第一候选句子通过基于语言模型的再评分来确定,然后被输出为最终语音识别结果。
图6示出根据一个或多个实施例的与每个命名实体对应的多个标准表达的示例。
图6示出从自用户的语音信号610确定的M个第二候选句子640之中确定句子作为最终句子650的处理的示例。
通过对用户的语音信号610执行语音识别来确定N个识别的第一候选句子620。此外,通过辨识N个识别的第一候选句子620中的每个中的命名实体来确定N个命名实体630。为了简洁,将针对每个命名实体描述下面的操作。
在命名实体1的示例中,可检索与命名实体1对应的k个标准表达。确定命名实体1与k个标准表达中的每个标准表达之间的相似度。确定该确定的相似度是否大于或等于阈值。从确定的相似度大于或等于阈值的标准表达,以相似度的降序选择j个标准表达,其中,j是1与k之间的自然数。在图6的示例中,由于相似度1-1至相似度1-k大于或等于阈值,所以以相似度的降序从标准表达1-1至标准表达1-k选择j个标准表达。在图6中,相似度的降序由圆圈中的数字表示。命名实体被j个标准表达中的每个标准表达替换,使得j个第二候选句子被生成。
在命名实体2的示例中,检索与命名实体2对应的k个标准表达。确定命名实体2与k个标准表达中的每个标准表达之间的相似度。然后确定该确定的相似度是否大于或等于阈值。在图6中,小于阈值的相似度由“×”标记表示。从具有大于或等于阈值的相似度的标准表达,以相似度的降序选择j个标准表达。当具有大于或等于阈值的相似度的标准表达的数量小于j时,具有小于阈值的相似度的标准表达(例如,标准表达2-2)可被选择。在这个示例中,由于标准表达2-2的相似度小于阈值,因此包括命名实体2的第二候选句子被确定,而不用标准表达2-2进行替换。
然后可对剩余实体执行前述操作,使得M个第二候选句子640被确定。M根据“N×j”确定。通过基于语言模型的再评分,M个第二候选句子640中的一个被选择为将被输出的最终句子650。
图7示出根据一个或多个实施例的基于语音信号的域来确定标准表达的示例。
参照图7,可基于域对多个标准表达进行分类。域表示特定的标准表达所属的区域,并且域包括例如存储在用户终端中的联系人、应用、与用户相关的另一装置(例如,智能电器,IoT装置等)、音乐标题以及音乐艺术家。上述倒排索引表针对每个域单独地生成。例如,联系人域的倒排索引表基于与存储在用户终端中的联系人对应的多个标准表达来确定,音乐艺术家域的倒排索引表基于与音乐艺术家对应的多个标准表达来确定。这样,倒排索引表基于多个域来生成。
在图7的示例中,“Michael Jessen”被辨识为与语音信号710的语音识别结果对应的发出的第一候选句子720中的命名实体。然后,与命名实体“Michael Jessen”对应的标准表达可被检索。在这个示例中,对属于语音信号710的域的多个标准表达执行搜索。语音信号710可以是例如用户向联系人号码被存储在用户终端中的认识的人打的电话。基于语音信号710,域被确定为联系人域。因此,对联系人域733中的多个标准表达执行搜索以获得与命名实体“Michael Jessen”对应的标准表达。作为结果,与命名实体“Michael Jessen”最相似的标准表达“Michael Jason”被检索到。当命名实体“Michael Jessen”与标准表达“Michael Jason”之间的相似度大于或等于阈值时,通过在第一候选句子720中用标准表达“Michael Jason”替换命名实体“Michael Jessen”而获得的第二候选句子740被确定。
在一个示例中,当语音信号710是“play Michael Jessen music”时,语音信号710的域被确定为音乐艺术家域,使得对音乐艺术家域731执行搜索以获得与命名实体“Michael Jessen”对应的标准表达。作为结果,与命名实体“Michael Jessen”最相似的标准表达“Michael Jackson”可被检索到。
这样,通过基于确定的域来搜索与从语音信号710检索的命名实体对应的标准表达,具有与用户意图一致的高水平准确度的语音识别结果可被获取。
图8是示出根据一个或多个实施例的语音处理设备的操作的示例的流程图。可以以所示出的顺序和方式执行图8中的操作。可并行或同时执行图8中所示的操作中的许多操作。可通过执行指定功能的基于专用硬件的计算机或专用硬件和计算机指令的组合来执行图8的一个或多个框以及框的组合。除了下面对图8的描述之外,图1至图7的描述也适用于图8,并且通过引用包含于此。因此,这里可以不重复上面的描述。
参照图8,在包括在语音处理设备中的处理器中执行下面的操作。在示例中,“处理器”可表示一个或多个处理器,“存储器”可表示一个或多个存储器。
在操作810中,语音处理设备通过对输入的用户的语音信号执行语音识别处理来生成N个第一候选句子,N是大于或等于2的自然数。语音处理设备可通过执行N-Best技术和编码器-解码器结构的语音识别模型来生成N个第一候选句子。
针对N个第一候选句子中的每个执行操作820至操作850,并且为了便于描述,将基于一个第一候选句子的描述来描述每个操作。
在操作820中,语音处理设备辨识第一候选句子中的命名实体。命名实体是由实名表示的实体,并且作为非限制性示例,命名实体包括例如人的名称、应用名称、音乐标题以及音乐艺术家。语音处理设备基于第一候选句子的类型来辨识第一候选句子中的命名实体。例如,当第一候选句子的类型为“call○○○”时,语音处理设备将第一候选句子中的“○○○”辨识为命名实体。类似地,当第一候选句子的类型是“play△△△music”和“execute□□□application”时,语音处理设备将第一候选句子中的“△△△”和“□□□”辨识为命名实体。另外,可不限制地应用各种第一候选句子类型。
在操作830中,语音处理设备使用命名实体的音素在多个标准表达之中确定与辨识的命名实体对应的k个标准表达,其中,k是大于0的自然数。
在操作840中,语音处理设备确定k个标准表达是否包括与命名实体的相似度大于或等于阈值的标准表达。相似度可根据基于音素的编辑距离来确定。当存在具有大于或等于阈值的相似度的标准表达时,执行操作850。相反,当不存在具有大于或等于阈值的相似度的标准表达时,确定命名实体被保持而不用标准表达进行替换的第二候选句子,然后执行操作860。
在操作850中,语音处理设备通过用具有大于或等于阈值的相似度的标准表达之中的j个最相似的标准表达替换对应的命名实体来确定j个第二候选句子,其中,j是1与k之间的自然数。当具有大于或等于阈值的相似度的标准表达的数量小于j时,也可确定命名实体被保持而不用标准表达进行替换的第二候选句子。
在操作860中,对作为语音识别结果生成的N个第一候选句子执行语音处理设备验证“是否用标准句子替换命名实体”的验证处理。当N个第一候选句子包括未执行“是否用标准句子替换命名实体”的第一候选句子时,对对应的第一候选句子执行操作820。当N个第一候选句子不包括这样的句子时,执行操作870。
在操作870中,语音处理设备可选择M个第二候选句子之一作为最终句子,并且输出最终句子。在选择最终句子时,可使用基于标准表达训练的语言模型。
由于图1至图7的描述适用于图8的上述操作,因此将省略重复的描述。
图9示出语音处理设备的示例。
参照图9,语音处理设备900可包括一个或多个存储器910、一个或多个处理器920和被配置为接收用户的语音输入数据的输入输出(I/O)接口930。一个或多个存储器910、一个或多个处理器920和I/O接口930通过总线940通信。在示例中,对“处理器”的引用可表示一个或多个处理器,并且对存储器的引用可表示一个或多个存储器。
在一个示例中,输入/输出接口930可以是从用户接收输入或者提供输出的显示器。在一个示例中,输入/输出接口930可用作输入装置,并且可以通过输入方法(例如,语音输入)捕获或接收来自用户的输入。因此,作为非限制性示例,输入/输出接口930可包括麦克风和可检测来自用户的输入并且将检测到的输入发送到处理器920的其他装置。
在一个示例中,语音处理设备900还可将指令存储在例如存储器910中,该指令在由处理器920执行时配置处理器920实现这样的一个或多个操作或操作的任何组合。在一个示例中,语音识别设备900可被配置为硬件,作为非限制性示例,硬件可包括微处理器、中央处理器、处理器核、多核处理器、多处理器、专用集成电路(ASIC)和现场可编程门阵列(FPGA)。
处理器920是用于执行指令或程序、或者控制语音处理设备900的装置。处理器920包括例如中央处理器(CPU)和图形处理器(GPU)。语音处理设备900可通过I/O接口930连接到外部装置(例如,麦克风和键盘),以接收用户的输入第一候选句子或者输出回复第一候选句子。另外,语音处理设备900可执行以上描述的操作。
图10示出根据一个或多个实施例的语音处理方法的示例。图10中的操作可按照所示的顺序和方式执行。图10中示出的操作中的许多操作可并行或同时执行。图10的一个或多个框以及框的组合可通过执行指定功能的基于专用硬件的计算机或专用硬件和计算机指令的组合来实现。除了下面对图10的描述之外,图1至图9的描述也适用于图10,并且通过引用包含于此。因此,这里可不重复上面的描述。
参照图10,在包括在语音处理设备中的处理器中执行语音处理方法。
在操作1010中,语音处理设备可响应于对用户的语音信号执行的语音识别处理来生成多个第一候选句子。在操作1020中,语音处理设备可辨识多个第一候选句子中的每个中的命名实体。在操作1030中,语音处理设备可使用对应的命名实体的音素来确定与辨识的命名实体对应的标准表达。在操作1040中,语音处理设备可通过基于命名实体和与命名实体对应的标准表达之间的确定的相似度,用与命名实体对应的标准表达替换多个第一候选句子中的每个的命名实体、或者相反保持命名实体,来确定多个第二候选句子。在操作1050中,语音处理设备可输出从多个第二候选句子选择的最终句子。
由于图1至图9的描述适用于图10的上述操作,因此将省略重复的描述。
在此描述的神经网络设备、语音处理设备100、对应的处理器、存储器、存储器920、存储器910、输入/输出接口930和其它装置以及其它组件被实现为硬件组件并且由硬件组件实现。可用于执行在本申请中描述的操作的硬件组件的示例在适当的情况下包括:控制器、传感器、生成器、驱动器、存储器、比较器、算术逻辑单元、加法器、减法器、乘法器、除法器、积分器和被配置为执行在本申请中描述的操作的任何其它电子组件。在其它示例中,执行在本申请中描述的操作的硬件组件中的一个或多个通过计算硬件(例如,通过一个或多个处理器或计算机)来实现。处理器或计算机可通过一个或多个处理元件(诸如,逻辑门阵列、控制器和算术逻辑单元、数字信号处理器、微型计算机、可编程逻辑控制器、现场可编程门阵列、可编程逻辑阵列、微处理器或被配置为以限定的方式响应并执行指令以实现期望的结果的任何其它装置或装置的组合)来实现。在一个示例中,处理器或计算机包括或连接到存储由处理器或计算机执行的指令或软件的一个或多个存储器。由处理器或计算机实现的硬件组件可执行用于执行在本申请中描述的操作的指令或软件(诸如,操作系统(OS)和在OS上运行的一个或多个软件应用)。硬件组件也可响应于指令或软件的执行来访问、操控、处理、创建和存储数据。为了简单起见,单数术语“处理器”或“计算机”可用在本申请中描述的示例的描述中,但是在其它示例中,多个处理器或计算机可被使用,或者处理器或计算机可包括多个处理元件或多种类型的处理元件或二者。例如,单个硬件组件或者两个或更多个硬件组件可通过单个处理器、或者两个或更多个处理器、或者处理器和控制器来实现。一个或多个硬件组件可通过一个或多个处理器、或者处理器和控制器来实现,并且一个或多个其它硬件组件可通过一个或多个其它处理器、或者另外的处理器和另外的控制器来实现。一个或多个处理器、或者处理器和控制器可实现单个硬件组件或者两个或更多个硬件组件。硬件组件可具有不同的处理配置中的任何一个或多个,不同的处理配置的示例包括:单个处理器、独立处理器、并行处理器、单指令单数据(SISD)多处理、单指令多数据(SIMD)多处理、多指令单数据(MISD)多处理以及多指令多数据(MIMD)多处理。
执行在本申请中描述的操作并在图1至图10中示出的方法通过计算硬件(例如,通过一个或多个处理器或计算机)来执行,计算硬件被实现为如上所述地执行指令或软件,以执行在本申请中描述的由所述方法执行的操作。例如,单个操作或者两个或更多个操作可通过单个处理器、或者两个或更多个处理器、或者处理器和控制器来执行。一个或多个操作可(例如,作为处理器实现的方法的各自的操作)通过一个或多个处理器、或者处理器和控制器来执行,并且一个或多个其它操作可通过一个或多个其它处理器、或者另外的处理器和另外的控制器来执行。一个或多个处理器、或者处理器和控制器可执行单个操作或者两个或更多个操作。
用于控制计算硬件(例如,一个或多个处理器或计算机)以实现硬件组件并执行如上所述的方法的指令或软件可被编写为计算机程序、代码段、指令或它们的任何组合,以单独地或共同地指示或配置一个或多个处理器或计算机作为机器或专用计算机进行操作,以执行由如上所述的硬件组件和方法执行的操作。在一个示例中,指令或软件包括由一个或多个处理器或计算机直接执行的机器代码(诸如,由编译器产生的机器代码)。在另一示例中,指令或软件包括由一个或多个处理器或计算机使用解释器执行的高级代码。可基于附图中示出的框图和流程图以及说明书中的对应描述使用任何编程语言编写指令或软件,附图中示出的框图和流程图以及说明书中的对应描述公开了用于执行由如上所述的硬件组件和方法执行的操作的算法。
用于控制计算硬件(例如,一个或多个处理器或计算机)以实现硬件组件并执行如上所述的方法的指令或软件以及任何相关联的数据、数据文件和数据结构可被记录、存储或固定在一个或多个非暂时性计算机可读存储介质中或一个或多个非暂时性计算机可读存储介质上。非暂时性计算机可读存储介质的示例包括:只读存储器(ROM)、随机存取可编程只读存储器(PROM)、电可擦除可编程只读存储器(EEPROM)、随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、闪存、非易失性存储器、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-RLTH、BD-RE、蓝光或光盘存储器、硬盘驱动器(HDD)、固态驱动器(SSD)、卡式存储器(诸如,多媒体卡或者微型卡(例如,安全数字(SD)或者极速数字(XD)))、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘、以及任何其它装置,任何其它装置被配置为以非暂时性方式存储指令或软件以及任何相关联的数据、数据文件和数据结构并将指令或软件以及任何相关联的数据、数据文件和数据结构提供给一个或多个处理器或计算机,使得一个或多个处理器和计算机能够执行指令。在一个示例中,指令或软件以及任何相关联的数据、数据文件和数据结构分布在联网的计算机系统上,使得指令和软件以及任何相关联的数据、数据文件和数据结构以分布式方式由一个或多个处理器或计算机存储、访问和执行。
虽然本公开包括特定示例,但是在理解本申请的公开之后将清楚的是,在不脱离权利要求和它们的等同物的精神和范围的情况下,可在这些示例中做出形式和细节上的各种改变。在此描述的示例仅被认为是描述性的,而不是出于限制的目的。每个示例中的特征或方面的描述应被认为可适用于其它示例中的类似特征或方面。如果描述的技术以不同的顺序被执行,和/或如果描述的系统、架构、装置或电路中的组件以不同的方式被组合,和/或由其它组件或它们的等同物替换或补充,则可实现合适的结果。因此,公开的范围不是由具体实施方式限定,而是由权利要求和它们的等同物限定,并且在权利要求和它们的等同物的范围内的所有变化应被解释为包括在公开中。

Claims (20)

1.一种语音处理方法,包括:
执行语音信号的语音识别;
生成多个第一候选句子作为执行语音识别的结果;
辨识所述多个第一候选句子中的每个中的各个命名实体;
使用对应的命名实体的音素来确定与辨识的各个命名实体对应的标准表达;
针对所述多个第一候选句子中的每个,基于命名实体和与命名实体对应的标准表达之间的相似度,确定是否用确定的标准表达替换辨识的命名实体,并基于确定结果确定多个第二候选句子;和
输出从所述多个第二候选句子选择的最终句子。
2.根据权利要求1所述的语音处理方法,其中,确定标准表达的步骤包括:
基于使用包括在对应的命名实体中的音素执行的倒排索引搜索,确定与在辨识命名实体的步骤中辨识的每个命名实体对应的标准表达。
3.根据权利要求1所述的语音处理方法,其中,确定标准表达的步骤包括:
基于多个标准表达的倒排索引表,基于对应的命名实体的包括的音素的数量和确定的包括的音素的重要性级别,从所述多个标准表达选择最相似的标准表达。
4.根据权利要求3所述的语音处理方法,其中,倒排索引表是根据基于音素的倒排索引方案对所述多个标准表达进行索引获得的表。
5.根据权利要求3所述的语音处理方法,其中,所述多个标准表达包括由用户先前指定的表达和/或通用表达。
6.根据权利要求1所述的语音处理方法,其中,输出最终句子的步骤包括:
根据基于标准表达训练的语言模型,输出第二候选句子之中的被确定为最精确地对应于语音信号的句子作为最终句子。
7.根据权利要求1所述的语音处理方法,其中,确定标准表达的步骤包括:
基于语音信号的分析确定语音信号的域,并且从与确定的域对应的多个标准表达确定与每个命名实体对应的标准表达。
8.根据权利要求7所述的语音处理方法,其中,语音信号的域包括:存储在用户的装置中的联系人、应用、音乐标题、音乐艺术家和与用户相关的另一装置中的至少一个。
9.根据权利要求1所述的语音处理方法,其中,确定对应的标准表达的步骤包括:
基于作为在辨识命名实体的步骤中辨识的每个命名实体的包括的音素的数量和包括的音素的重要性级别,以相似度顺序从多个标准表达确定k个对应的标准表达,
确定分别对应的命名实体与k个对应的标准表达中的每个标准表达之间的相似度是否大于或等于阈值,和
从具有确定的大于或等于阈值的相似度的标准表达选择j个最相似的标准表达,
其中,k是大于0的自然数,j是1与k之间的自然数。
10.根据权利要求1所述的语音处理方法,其中,在所述多个第一候选句子中的每个中,基于对应的第一候选句子的确定的类型来辨识命名实体和命名实体的域中的一个或两个。
11.根据权利要求1所述的语音处理方法,其中,生成所述多个第一候选句子的步骤包括:
基于语音信号的语音识别来生成具有最高识别率的N个第一候选句子,其中,N是大于或等于2的自然数。
12.根据权利要求1所述的语音处理方法,其中,输出最终句子的步骤包括:基于输出的最终句子来控制用户的装置的操作。
13.根据权利要求1所述的语音处理方法,其中,以与表示所述多个第一候选句子的语言相比相同的语言和不同的语言中的一者来表示标准表达。
14.根据权利要求1所述的语音处理方法,其中,相似度是每个命名实体与对应的标准表达之间的基于音素的相似度。
15.一种存储指令的非暂时性计算机可读存储介质,所述指令在被处理器执行时,使处理器执行权利要求1至权利要求14中的任意一项所述的语音处理方法。
16.一种语音处理设备,包括:
一个或多个处理器,被配置为:
执行语音信号的语音识别;
生成多个第一候选句子作为执行的语音识别的结果;
辨识所述多个第一候选句子中的每个中的各自的命名实体;
使用对应的命名实体的音素来确定与辨识的命名实体对应的标准表达;
针对所述多个第一候选句子中的每个,基于命名实体和与命名实体对应的标准表达之间的相似度,确定是否用确定的标准表达替换辨识的命名实体,并且基于确定结果确定多个第二候选句子;和
输出从所述多个第二候选句子选择的最终句子。
17.根据权利要求16所述的语音处理设备,其中,所述一个或多个处理器被配置为:基于使用包括在对应的命名实体中的音素执行的倒排索引搜索来确定与在辨识命名实体的步骤中辨识的每个命名实体对应的标准表达。
18.根据权利要求16所述的语音处理设备,其中,所述一个或多个处理器被配置为:根据基于标准表达训练的语言模型来输出第二候选句子之中的被确定为最精确地对应于语音信号的句子作为最终句子。
19.根据权利要求16所述的语音处理设备,其中,所述一个或多个处理器被配置为:基于语音信号的分析确定语音信号的域,并且从与确定的域对应的多个标准表达确定与每个命名实体对应的标准表达。
20.根据权利要求16所述的语音处理设备,其中,所述一个或多个处理器被配置为:基于作为在辨识命名实体的步骤中辨识的每个命名实体的包括的音素的数量和包括的音素的重要性级别,以相似度顺序从多个标准表达确定k个对应的标准表达,
确定分别对应的命名实体与k个对应的标准表达中的每个标准表达之间的相似度是否大于或等于阈值,和
从具有确定的大于或等于阈值的相似度的标准表达选择j个最相似的标准表达,
其中,k是大于0的自然数,j是1与k之间的自然数。
CN202010535103.3A 2019-11-19 2020-06-12 语音处理方法和设备 Pending CN112825249A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020190148441A KR20210060897A (ko) 2019-11-19 2019-11-19 음성 처리 방법 및 장치
KR10-2019-0148441 2019-11-19

Publications (1)

Publication Number Publication Date
CN112825249A true CN112825249A (zh) 2021-05-21

Family

ID=72193365

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010535103.3A Pending CN112825249A (zh) 2019-11-19 2020-06-12 语音处理方法和设备

Country Status (4)

Country Link
US (1) US11741950B2 (zh)
EP (1) EP3826007B1 (zh)
KR (1) KR20210060897A (zh)
CN (1) CN112825249A (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111312253A (zh) * 2018-12-11 2020-06-19 青岛海尔洗衣机有限公司 语音控制方法、云端服务器及终端设备
KR20210016767A (ko) * 2019-08-05 2021-02-17 삼성전자주식회사 음성 인식 방법 및 음성 인식 장치
CN113223516B (zh) * 2021-04-12 2022-11-29 北京百度网讯科技有限公司 语音识别方法和装置
US20220343069A1 (en) * 2021-04-24 2022-10-27 Jonathan Mark Vyse Method of converting between an n-tuple and a document using a readable text and a text grammar
US11593415B1 (en) * 2021-11-05 2023-02-28 Validate Me LLC Decision making analysis engine
US20230197064A1 (en) * 2021-12-17 2023-06-22 Snap Inc. Speech to entity

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103226945A (zh) * 2012-01-31 2013-07-31 三菱电机株式会社 声音合成装置以及声音合成方法
CN104217716A (zh) * 2013-06-03 2014-12-17 株式会社东芝 语音处理器及语音处理方法
US20160155436A1 (en) * 2014-12-02 2016-06-02 Samsung Electronics Co., Ltd. Method and apparatus for speech recognition
US9454957B1 (en) * 2013-03-05 2016-09-27 Amazon Technologies, Inc. Named entity resolution in spoken language processing
CN106205608A (zh) * 2015-05-29 2016-12-07 微软技术许可有限责任公司 利用知识图的用于语音识别的语言建模
CN106328127A (zh) * 2015-06-30 2017-01-11 三星电子株式会社 语音识别设备,语音识别方法和电子装置
CN107590135A (zh) * 2016-07-07 2018-01-16 三星电子株式会社 自动翻译方法、设备和系统
US20180211652A1 (en) * 2017-01-26 2018-07-26 Samsung Electronics Co., Ltd. Speech recognition method and apparatus
CN109558853A (zh) * 2018-12-05 2019-04-02 维沃移动通信有限公司 一种音频合成方法及终端设备
CN109817244A (zh) * 2019-02-26 2019-05-28 腾讯科技(深圳)有限公司 口语评测方法、装置、设备和存储介质

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8195655B2 (en) 2007-06-05 2012-06-05 Microsoft Corporation Finding related entity results for search queries
KR20110070057A (ko) 2009-12-18 2011-06-24 한국전자통신연구원 자연어 기반 여행 추천 장치 및 방법
US20110224982A1 (en) * 2010-03-12 2011-09-15 c/o Microsoft Corporation Automatic speech recognition based upon information retrieval methods
US8645125B2 (en) 2010-03-30 2014-02-04 Evri, Inc. NLP-based systems and methods for providing quotations
US9158754B2 (en) 2012-03-29 2015-10-13 The Echo Nest Corporation Named entity extraction from a block of text
US9251133B2 (en) 2012-12-12 2016-02-02 International Business Machines Corporation Approximate named-entity extraction
US10170114B2 (en) * 2013-05-30 2019-01-01 Promptu Systems Corporation Systems and methods for adaptive proper name entity recognition and understanding
US9240181B2 (en) 2013-08-20 2016-01-19 Cisco Technology, Inc. Automatic collection of speaker name pronunciations
US9684709B2 (en) 2013-12-14 2017-06-20 Microsoft Technology Licensing, Llc Building features and indexing for knowledge-based matching
US10672391B2 (en) 2014-09-26 2020-06-02 Nuance Communications, Inc. Improving automatic speech recognition of multilingual named entities
US10019514B2 (en) * 2015-03-19 2018-07-10 Nice Ltd. System and method for phonetic search over speech recordings
US10229674B2 (en) 2015-05-15 2019-03-12 Microsoft Technology Licensing, Llc Cross-language speech recognition and translation
US9852728B2 (en) * 2015-06-08 2017-12-26 Nuance Communications, Inc. Process for improving pronunciation of proper nouns foreign to a target language text-to-speech system
US10854192B1 (en) * 2016-03-30 2020-12-01 Amazon Technologies, Inc. Domain specific endpointing
US10839159B2 (en) * 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
CN109408824B (zh) * 2018-11-05 2023-04-25 百度在线网络技术(北京)有限公司 用于生成信息的方法和装置
US20200372110A1 (en) * 2019-05-22 2020-11-26 Himanshu Kaul Method of creating a demographic based personalized pronunciation dictionary
US11861674B1 (en) * 2019-10-18 2024-01-02 Meta Platforms Technologies, Llc Method, one or more computer-readable non-transitory storage media, and a system for generating comprehensive information for products of interest by assistant systems

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103226945A (zh) * 2012-01-31 2013-07-31 三菱电机株式会社 声音合成装置以及声音合成方法
US9454957B1 (en) * 2013-03-05 2016-09-27 Amazon Technologies, Inc. Named entity resolution in spoken language processing
CN104217716A (zh) * 2013-06-03 2014-12-17 株式会社东芝 语音处理器及语音处理方法
US20160155436A1 (en) * 2014-12-02 2016-06-02 Samsung Electronics Co., Ltd. Method and apparatus for speech recognition
CN106205608A (zh) * 2015-05-29 2016-12-07 微软技术许可有限责任公司 利用知识图的用于语音识别的语言建模
CN106328127A (zh) * 2015-06-30 2017-01-11 三星电子株式会社 语音识别设备,语音识别方法和电子装置
CN107590135A (zh) * 2016-07-07 2018-01-16 三星电子株式会社 自动翻译方法、设备和系统
US20180211652A1 (en) * 2017-01-26 2018-07-26 Samsung Electronics Co., Ltd. Speech recognition method and apparatus
CN109558853A (zh) * 2018-12-05 2019-04-02 维沃移动通信有限公司 一种音频合成方法及终端设备
CN109817244A (zh) * 2019-02-26 2019-05-28 腾讯科技(深圳)有限公司 口语评测方法、装置、设备和存储介质

Also Published As

Publication number Publication date
US11741950B2 (en) 2023-08-29
EP3826007B1 (en) 2023-11-15
EP3826007A1 (en) 2021-05-26
US20210151042A1 (en) 2021-05-20
KR20210060897A (ko) 2021-05-27

Similar Documents

Publication Publication Date Title
CN111292728B (zh) 语音识别方法和设备
CN111933129B (zh) 音频处理方法、语言模型的训练方法、装置及计算机设备
CN112825249A (zh) 语音处理方法和设备
CN106469552B (zh) 语音识别设备和方法
CN106328127B (zh) 语音识别设备,语音识别方法和电子装置
US8589163B2 (en) Adapting language models with a bit mask for a subset of related words
CN106683677B (zh) 语音识别方法及装置
US10878807B2 (en) System and method for implementing a vocal user interface by combining a speech to text system and a speech to intent system
WO2020226789A1 (en) Contextual biasing for speech recognition
JP2021033255A (ja) 音声認識方法、装置、機器及びコンピュータ可読記憶媒体
JP7200405B2 (ja) 音声認識のためのコンテキストバイアス
US11955119B2 (en) Speech recognition method and apparatus
CN112905735A (zh) 用于自然语言处理的方法和设备
US20130090921A1 (en) Pronunciation learning from user correction
WO2017166631A1 (zh) 语音信号处理方法、装置和电子设备
Lugosch et al. Donut: Ctc-based query-by-example keyword spotting
US20190027133A1 (en) Spoken language understanding using dynamic vocabulary
CN112700778A (zh) 语音识别方法和语音识别设备
JP2020042257A (ja) 音声認識方法及び装置
CN111508497B (zh) 语音识别方法、装置、电子设备及存储介质
CN112668317A (zh) 用于确定输出词法单元的方法和设备
JP7044856B2 (ja) 増強された一貫性正規化を利用した音声認識モデル学習方法およびシステム
JP6082657B2 (ja) ポーズ付与モデル選択装置とポーズ付与装置とそれらの方法とプログラム
Chung et al. Unsupervised discovery of structured acoustic tokens with applications to spoken term detection
JP6546070B2 (ja) 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、およびプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination