CN104969288B - 基于话音记录日志提供话音识别系统的方法和系统 - Google Patents

基于话音记录日志提供话音识别系统的方法和系统 Download PDF

Info

Publication number
CN104969288B
CN104969288B CN201380072375.2A CN201380072375A CN104969288B CN 104969288 B CN104969288 B CN 104969288B CN 201380072375 A CN201380072375 A CN 201380072375A CN 104969288 B CN104969288 B CN 104969288B
Authority
CN
China
Prior art keywords
record
transcript
data
interview
interviews
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201380072375.2A
Other languages
English (en)
Other versions
CN104969288A (zh
Inventor
P.J.M.门吉巴
E.温斯坦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of CN104969288A publication Critical patent/CN104969288A/zh
Application granted granted Critical
Publication of CN104969288B publication Critical patent/CN104969288B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0635Training updating or merging of old and new templates; Mean values; Weighting
    • G10L2015/0636Threshold criteria for the updating

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

描述了用于基于话音记录日志提供话音识别系统的方法和系统的示例。在一些示例中,一种方法可由系统内的计算设备执行来生成修改后数据日志以用作特定语言的声学模型的训练数据集合。设备可接收包括至少一个或多个口头查询的记录的一个或多个数据日志并且对这些记录进行转录。基于比较,设备可识别可指示噪声的任何转录本并且可从数据日志中去除这些指示噪声的转录本。另外,设备可从数据日志中去除不想要的转录本并且设备可将修改后数据日志作为训练数据集合提供给特定语言的一个或多个声学模型。

Description

基于话音记录日志提供话音识别系统的方法和系统
背景技术
计算设备包括硬件和软件的各种组合,它们使得用户能够与计算系统交互,等等。现代用户界面的一个示例是“语音控制”,其可允许用户向计算系统的话音识别模块提供话音数据。该数据可被话音识别模块接收、转化成文本并处理,并且可最终被计算系统用作执行某些计算功能的基础。话音识别模块对于同时需要对其手部的自由使用和对计算设备的控制的用户仍是更有用的。例如,执行外科手术的医生可利用话音识别模块以便在用他或她的手为患者做手术的同时在计算设备上执行命令。
话音识别系统可需要通过处理话音查询(称为话语)的记录的大数据库来获知用户如何发出话音的各种声音。然而,话音识别系统在尝试理解用户的输入时可遇到问题。例如,话音识别模块可从具有各种音调、对字词的发音不同以及强调字词的不同部分等等的不同用户接收输入。此外,话音识别系统可检测到背景噪声、风或者其他干扰,这些可与来自用户的输入混淆。话音识别系统可能必须克服这些障碍以及其他障碍以便正确地工作。
发明内容
在一个方面中,描述了一种方法。该方法可包括接收一个或多个数据日志,并且该一个或多个数据日志包括至少一个或多个口头查询的记录。该方法还可包括转录(transcribe)一个或多个口头查询的记录,并且在一个或多个口头查询的记录的转录本(transcription)内识别具有超过阈值的出现的转录本。阈值可基于转录本与先前转录的查询的比较。该方法还可包括利用语言模型和声学模型两者来处理与所识别的转录本相对应的口头查询的记录,并且基于对利用语言模型的处理与利用声学模型的处理的比较,从一个或多个数据日志中识别与被认为是由于噪声引起的转录本相对应的一个或多个记录。该方法还可包括生成包含口头查询的记录的一个或多个修改后数据日志,并且将一个或多个修改后数据日志和一个或多个修改后数据日志内的一个或多个口头查询的记录的关联转录本作为训练数据集合提供来更新特定语言的一个或多个声学模型。
在另一方面中,描述了一种计算机可读介质,其上存储有指令,这些指令当被计算设备执行时使得该计算设备执行功能。功能可包括接收一个或多个数据日志,并且该一个或多个数据日志包括至少一个或多个口头查询的记录。功能还可包括转录一个或多个口头查询的记录,并且在一个或多个口头查询的记录的转录本内识别具有超过阈值的出现的转录本。阈值可基于转录本与先前转录的查询的比较。功能还可包括利用语言模型和声学模型两者来处理与所识别的转录本相对应的口头查询的记录,并且基于对利用语言模型的处理与利用声学模型的处理的比较,从一个或多个数据日志中识别与被认为是由于噪声引起的转录本相对应的一个或多个记录。功能还可包括生成包含口头查询的记录的一个或多个修改后数据日志,并且将一个或多个修改后数据日志和一个或多个修改后数据日志内的一个或多个口头查询的记录的关联转录本作为训练数据集合提供来更新特定语言的一个或多个声学模型。
在另外一个方面中,描述了一种系统。该系统可包括至少一个处理器和数据存储装置,该数据存储装置包括可被至少一个处理器执行来使得至少一个处理器执行功能的程序指令,功能包括接收一个或多个数据日志,并且该一个或多个数据日志包括至少一个或多个口头查询的记录。功能还可包括转录一个或多个口头查询的记录并且在一个或多个口头查询的记录的转录本内识别具有超过阈值的出现的转录本,并且阈值是基于转录本与先前转录的查询的比较的。功能还可包括利用语言模型和声学模型两者来处理与所识别的转录本相对应的口头查询的记录,并且基于对利用语言模型的处理与利用声学模型的处理的比较,从一个或多个数据日志中识别与被认为是由于噪声引起的转录本相对应的一个或多个记录。功能还可包括生成包含口头查询的记录的一个或多个修改后数据日志,并且将一个或多个修改后数据日志和一个或多个修改后数据日志内的一个或多个口头查询的记录的关联转录本作为训练数据集合提供来更新特定语言的一个或多个声学模型。
前述发明内容只是说明性的,而并不打算以任何方式进行限定。除了以上描述的说明性方面、实施例和特征以外,通过参考附图和以下详细描述,另外的方面、实施例和特征将变得清楚。
附图说明
图1图示了其中可实现示例方法的示例通信系统。
图2图示了示例计算设备的示意图。
图3图示了另一示例计算设备的示意图。
图4A-4B描绘了用于提供修改后数据日志的示例方法的流程图。
图5图示了包含口头查询的记录的数据日志被修改成包含口头查询的转录本的修改后数据日志的示例。
具体实施方式
以下详细描述参考附图描述了所公开的系统和方法的各种特征和功能。在图中,相似的符号标识相似的成分,除非上下文另有规定。本文描述的说明性系统和方法实施例并不打算进行限定。可容易理解,所公开的系统和方法的某些方面可按许多种不同的配置来布置和组合,所有这些在这里都已被设想到。
以下详细描述可公开用于从话音记录日志创建和改进话音识别系统的方法和系统。在一个方面中,具有一个或多个实体的一种系统可被配置为执行本文描述的方法。该系统可被配置为从客户端设备(例如,移动设备)接收包括一个或多个口头查询的记录的一个或多个数据日志。客户端设备可与系统内的实体通信并且可被配置为从客户端设备的一个或多个用户接收言语输入。系统可配置有话音识别模块,该模块可转录口头查询的记录并且识别比其他转录本出现得更频繁的转录本。在一个示例中,话音识别模块可识别超过阈值频率的转录本。系统内的一个或多个实体可利用语言模型和声学模型两者处理与识别的转录本相对应的口头查询以作出比较。基于此比较,系统可识别并去除包含服务器确定指示噪声的口头查询的任何数据日志。在一些示例中,在去除包含噪声的数据日志之后,修改后数据日志和口头查询的关联转录本可用作训练数据集合来更新特定语言的声学模型。
在另一示例中,额外的试探式过滤可被应用到修改后数据日志以进一步提高训练数据的精确性。额外的基于规则的参数可进一步去除不想要的口头查询或者应用不同的算法来将数据日志进一步提炼成精确的训练数据集合。例如,话音识别模块可被配置为去除包含统一资源定位符(uniform resource locator,URL)或数值序列的口头查询的记录的任何转录本,从而可确定整体上更精确的转录本。包含所确定的精确转录本的修改后数据日志可用于在不依赖于人类干预的情况下更新一个或多个声学模型。
现在将更详细描述其中可实现示例的系统、方法和设备。一般地,描述的方法可由各种类型的计算设备或设备的组件实现。在一个示例中,一种系统可包括一个或多个服务器,这些服务器可从诸如移动电话之类的客户端设备接收信息并向客户端设备提供信息。然而,描述的方法也可由其他计算设备实现,例如个人计算机、可穿戴计算设备或者移动设备,等等。另外,示例系统可采取计算机可读介质的形式,其上存储有程序指令,这些程序指令可被处理器执行来提供本文描述的功能。从而,示例系统可采取诸如服务器之类的设备或者这种设备的子系统的形式,其包括这种其上存储有这样的程序指令的计算机可读介质。
图1图示了示例通信系统100,其中可执行用于基于话音记录日志创建和改进话音识别系统的方法。在图1所示的示例中,服务器102可与一个或多个客户端设备通信。服务器102可被配置为经由无线和/或有线接口与客户端设备104通信。服务器102可包括话音识别模块106。
在图1所示的示例中,服务器102可以是被配置为执行本文描述的方法和计算设备功能的任何实体。服务器102可额外地被配置为执行其他方法和执行。在一个示例中,服务器102可由多个实体构成。服务器102可能够同时与多个客户端设备通信。在一些示例中,服务器102可以是或者包括云接口。此外,服务器102可与其他服务器通信或者充当其他设备之间的链路。
图1示出了客户端设备104a-104d,它们可以是任何类型的计算设备或者发送器,包括膝上型计算机、移动电话、可穿戴计算设备或者平板计算设备,等等。在一些情况中,客户端设备104a可由被配置为执行本文描述的方法和功能的一个或多个实体构成。另外,客户端设备104a可包括用户界面、通信接口、处理器和数据存储装置,该数据存储装置包括可被处理器执行来用于实现与发送到服务器102或由服务器102接收的数据有关的一个或多个功能的指令。客户端设备104a也可包含不同的界面。例如,用户界面可包括按钮、触摸屏、麦克风和/或任何其他用于接收输入的元件,以及一个或多个扬声器、一个或多个显示器和/或任何其他用于传达输出的元件。在一些示例中,服务器102和客户端设备104a-104d可采取多种形式。此外,客户端设备104a-104d和服务器102可通过各种手段通信,例如共享网络或者每一者可通过独立的网络通信。
在通信的一个示例中,客户端设备,例如客户端设备104a,可从用户接收某种形式的输入并且将该输入传递到服务器102。客户端设备104a可经由无线和/或有线链路发送输入并且可重复此过程直到接收到来自服务器102的响应为止。此外,服务器102可经由无线和/或有线链路向客户端设备104a或另一设备发送信息并且可等待响应。
服务器102可使用话音识别模块106来将言语输入转录成计算设备可理解的格式并将该格式传递回到客户端设备104a-104d中的一个或多个。话音识别模块106可由一个或多个实体构成,这些实体可接收传入的数据,并且以使得计算设备能够理解传入数据的转录本的方式来转录传入的数据。话音识别模块106可接收各种类型的输入并将这些输入转换成计算设备可使用的一个或多个形式,例如客户端设备104a。在一些示例中,一个或多个客户端设备104a-104d可包含可能够被话音识别模块106更新的话音识别模块。其他示例也可存在。
话音识别模块106可包括一个或多个应用并且可使用一个或多个算法。话音识别模块106可被配置为包括语音用户界面,例如搜索、呼叫路由、语音拨号、简单数据输入、文档准备或者话音到文本处理。此外,话音识别模块106可被配置为识别数据的不同输入。在一个示例中,话音识别模块106可使用一个或多个模拟到数字转换器来将接收到的任何数据数字化。话音识别模块106可以是与服务器102分开的实体,或者可耦合到服务器102。话音识别模块106可被配置为去除不想要的噪声并且向接收到的数字声音——例如口头查询的记录——应用过滤器。在另一示例中,话音识别模块106可被配置为利用隐式马尔可夫模型(Hidden Markov Model,HMM)或神经网络识别或者这些类型的混合来操作。其他示例是可能的。
在一个示例中,一个或多个客户端设备104a-104d可向服务器102提供一个或多个数据日志。一个或多个数据日志可各自包含一个或多个口头查询的记录。此外,客户端设备,例如客户端设备104a,可从用户捕捉一个或多个口头查询的记录并且将这些记录在数据日志中实时发送到服务器102。在另一示例中,一个或多个客户端设备104a-104d可将一个或多个记录存储在数据日志中并且继续在限定的时间发送该数据日志。客户端设备104a-104d可使用与每个客户端设备相关联的话音识别模块来将口头查询的记录转换成可理解的信息以供客户端设备104的处理器执行。
在一些示例中,服务器102可将接收到的数据日志转换成文本并且解析该文本以识别要执行的一个或多个功能。此外,客户端设备,例如客户端设备104a,可被配置为在本地将音频转换成文本并随后将文本信息发送到服务器102以便解析。在另外一个示例中,一个或多个客户端设备104a-104d可被配置为在本地解析文本,确定要执行的一个或多个功能,执行一个或多个功能,并且将指示该解析、确定和执行的信息发送到服务器102。客户端设备也可向服务器102发送指示响应一个或多个所确定的功能的确认(例如,用户确认)的响应确定。在另外一个示例中,一个或多个客户端设备,例如客户端设备104a,可从客户端设备104a的用户接收文本输入而不是言语输入。客户端设备104a随后可解析该文本输入并向服务器102发送信息。其他示例也是可能的。
图2图示了服务器200的示例。与图1中表示的那个类似,服务器200可表示系统中的一个或多个实体。在一些示例中,服务器200可由一个或多个组件构成,或者汇集多个设备。此外,服务器200的组件可分布在多个服务器上。在图2所示的示例中,组件被图示并描述为服务器200的一部分。此外,服务器200可以是可被配置为执行本文描述的功能的一个或多个计算设备、云或者类似的实体。
服务器200可包括通信接口202、话音识别模块204、语法模块206、处理器208和数据存储装置212。在该示例中,组件由通信链路220链接。服务器200可被配置为包括各种硬件组件来允许服务器200内的通信和服务器200与另一计算设备(未示出)之间的通信。例如,硬件组件可包括发送器、接收器和天线,等等。
在图2所示的示例中,通信接口202可使能与诸如移动电话、计算设备、另一服务器等等之类的一个或多个设备的通信。通信接口202可被配置为在一个或多个计算设备之间发送/接收输入数据。此外,通信接口202可维护并管理由服务器200接收和发送的数据的记录。在维护并管理数据的记录的一个示例中,数据的一个或多个记录可由服务器200的一个或多个组件来维护。通信接口202也可被配置为实时操作。通信接口202的其他示例也可存在。
图2图示了服务器200内的话音识别模块204。在一些示例中,话音识别模块204可以是与服务器200分开的组件并且可与服务器200通信。另外,话音识别模块204可通过通信链路220与通信接口202和服务器200的其他组件链接。在另一示例中,话音识别模块204可被配置在通信接口202或其他组件内。
在一些示例方法中,话音识别模块204可被配置为作为文本识别模块来操作。类似地,话音识别模块204可被配置为从各种设备接收不同类型的输入,例如言语或文本输入。在一些示例方法中,话音识别模块204可被配置为使用一个或多个算法来处理输入,例如识别一个或多个基于语法的文本模式,其中可包括一个或多个语法。话音识别模块204可被配置为根据话音识别语法规范(speech recognition grammar specification,SRGS)来使用语法。语法可由如图2所示的语法模块206产生和/或存储。语法可包括一组字词模式,这些模式可向话音识别模块204提供用于确定来自用户的输入背后的含义的信息。在一些示例中,话音或文本识别可由客户端设备执行。也可在客户端设备处产生和/或存储语法。
在一些示例中,话音识别模块204可以是依赖于扬声器的模块或独立于扬声器的模块,或者是这两种类型的组合。如上所述,话音识别模块204可被配置为作为隐式马尔可夫模型(HMM)、基于动态时间规整(dynamic time warping,DTW)的话音识别模块、神经网络或者这些系统的混合来操作。
在图2所示的示例中,服务器200可包含处理器208。处理器208可被配置为执行本文描述的各种功能和方法。此外,处理器208可执行其他功能或方法。处理器208可被配置为执行一个或多个计算机程序的指令。在一些示例中,处理器208可包括计数器模块210。计数器模块210可被配置为确定指示从客户端设备接收的输入与先前存储的输入之间的相关的出现次数的计数器值。计数器模块210可被配置为至少部分基于该出现次数来递增该计数器值。在一些示例中,服务器200的一个或多个功能可依赖于与阈值相比较的计数器模块210的计数器值或者基于该计数器值被禁止。
此外,服务器200还可包括数据存储装置212。数据存储装置212可包括易失或非易失类型的存储器并且可被配置有不同类型的易变性。在一个实现方式中,数据存储装置212可存储可由处理器208执行的程序逻辑214。数据存储装置212也可存储参考数据216,参考数据216可用于生成或确定语法和/或对语法的修改。其他示例也可存在。
服务器200可被配置为在接收到来自客户端设备的输入时访问参考数据216。参考数据216可包括从一个或多个客户端设备接收的一个或多个数据日志218。在一些示例中,一个或多个数据日志218可包括计数器模块210的计数器值。一个或多个数据日志218可包括一个或多个口头查询的记录。口头查询的记录可由一个或多个设备从一个或多个用户捕捉。
通信链路220被示为有线连接;然而,也可使用无线连接。例如,通信链路220可以是诸如通用串行总线之类的有线串行总线或者并行总线。有线连接也可以是专有连接。通信链路220也可以是使用例如无线电技术、IEEE 802.11(包括任何IEEE802.11修订版)中描述的通信协议、蜂窝技术(例如GSM、CDMA、UMTS、EV-DO、WiMAX或LTE)或技术等等的无线连接。
图3图示了另一示例计算设备300的示意图。在图3的示例中,计算设备采取客户端设备300的形式。其他示例示意图也可存在。在一些示例中,图3中所示的客户端设备300的一些组件可分布在多个计算设备上。然而,为了示例起见,这些组件被示出并描述为一个示例客户端设备300的一部分。此外,客户端设备300可以是移动设备、桌面计算机、电子邮件/消息传递设备、平板计算机、可穿戴计算设备或者可被配置为执行本文描述的功能的类似设备。
在图3所示的示例中,客户端设备300可包括通信接口302、运行时模块304、日志记录模块306、处理器308和数据存储装置310。数据存储装置310可包括程序数据312和程序逻辑314。此外,图3中所示的组件中的全部或一些可由通信链路316链接在一起。客户端设备300也可包括各种硬件组件来使能客户端设备300内的通信和客户端设备300与诸如服务器实体之类的另一计算设备(未示出)之间的通信。例如,客户端设备300可使用诸如发送器、接收器和天线之类的硬件。
客户端设备300可配置有通信接口302,通信接口302可允许客户端设备300与诸如服务器200之类的另一计算设备(未示出)通信。此外,通信接口302可被配置为从一个或多个计算设备接收输入数据,并且也可被配置为向一个或多个计算设备发送输出数据。在一些示例中,通信接口302也可维护并管理由客户端设备300接收/发送的数据的记录。在其他示例中,数据的记录可由客户端设备300的其他组件来维护和管理。
客户端设备300也可被配置为包括运行时模块304,运行时模块304可被配置为利用可由服务器提供的语法来执行基于语法的文本模式匹配。在一些示例中,运行时模块304可被配置为按与图2中描述的话音识别模块204类似的方式在客户端设备300本地执行话音/文本识别功能。在另一示例中,运行时模块304可被配置为从单独的模块接收文本输入(也称为输入指令),该单独模块被配置为将言语输入转换为文本输入。应当理解,运行时模块304执行的功能可被划分在客户端设备300与特定网络中的一个或多个服务器之间。
在一些示例中,运行时模块304可利用给定的语法以便解析文本输入。通过解析文本输入,运行时模块304可执行变元(argument)识别以及模式分类。变元识别可包括向给定文本输入的一个或多个部分指派一个或多个变元。模式分类可包括向给定的文本输入指派执行的功能。对文本输入的解析可采取各种形式,并且若干示例将在稍后的附图中描述。
运行时模块304可利用各种技术执行基于语法/基于规则的文本模式匹配,例如通过使用有限状态机、算法或者本领域普通技术人员已知的其他技术。在一些示例中,运行时模块可被配置为也执行话音识别。
在解析文本输入之后,运行时模块304可将包括文本输入的记录和文本输入的解析结果的输出发送到日志记录模块306,日志记录模块306被配置为存储从运行时模块304接收的输出。日志记录模块306也可被配置为存储文本输入的一个或多个部分,包括由于一个或多个不正确语法而可能没有成功解析的任何部分。在一些示例中,日志记录模块306可在客户端设备300本地存储数据。在其他示例中,日志记录模块306可在另一计算设备处远程存储数据。日志记录模块306随后可将数据发送到服务器以便处理以更新与文本输入相关联的语法。当由于不正确语法而发生不成功解析时,可对不正确语法作出修改。日志记录模块306可存储并组织从运行时模块304接收的数据。数据存储装置310可存储可被处理器308访问和执行的程序数据312和程序逻辑314。数据存储装置310也可存储被运行时模块304利用的语法。
通信链路316被示为有线连接;然而,也可使用无线连接。例如,通信链路316可以是诸如通用串行总线之类的有线串行总线或者并行总线。
图4A图示了用于执行这里的方法的示例概念性方面的流程图400。流程图400可包括如方框402-410中的一个或多个所示的一个或多个操作、功能或动作。虽然这些方框是按先后顺序示出的,但这些方框也可被并行执行,和/或按与本文描述的那些不同的顺序执行。另外,基于期望的实现方式,各种方框可被组合成更少的方框,划分成额外的方框,和/或被去除。
此外,对于流程图400和本文公开的其他过程和方法,框图示出了这些实施例的一种可能实现方式的功能和操作。就此,每个方框可表示程序代码的模块、片段或部分,程序代码包括可由处理器或计算设备执行来实现该过程中的特定逻辑功能或步骤的一个或多个指令。程序代码可被存储在任何类型的计算机可读介质上,例如包括盘或硬盘驱动器的存储设备。计算机可读介质可包括非暂态计算机可读介质,例如像寄存存储器、处理器缓存和随机访问存储器(Random Access Memory,RAM)那样短时间存储数据的计算机可读介质。计算机可读介质还可包括非暂态介质,例如次级或永久长期存储装置,比如只读存储器(read only memory,ROM)、光盘或磁盘、致密盘只读存储器(compact-disc read onlymemory,CD-ROM)。计算机可读介质也可以是任何其他易失性或非易失性存储系统。计算机可读介质可被认为是例如计算机可读存储介质,或者有形存储设备。
为了示例起见,图4A所示的流程图400将被描述为由与客户端设备通信的服务器实现。应当理解,其他实体可实现示例方法的一个或多个步骤。
流程图400图示了高级别功能,并且可按各种方式来更详细定义。在方框402,流程图400包括数据日志。数据日志可表示被配置为捕捉一个或多个口头查询的记录并将这些记录存储在数据日志内的设备。设备可从另一设备接收一个或多个数据日志。在一些情况中,设备可被配置为包括多个数据日志。
在方框404,流程图400进一步包括转录。一个或多个设备可被配置为转录一个或多个接收到的数据日志内的记录。例如,话音识别模块可使用一个或多个算法来为每个口头查询的记录确定转录本。设备可被配置为通过各种手段对于每个记录将一个或多个数据日志转录成计算机可使用格式,所述手段例如是与修改后数据日志或先前确定的正确转录本相比较。转录的其他示例也可存在。
在方框406,流程图400还包括病态查询去除。设备可被配置为识别指示病态查询的转录本并将它们从修改后数据日志中去除。病态查询可以是这样的查询:其中,数据日志中的记录包括噪声(例如,风),从而转录本是无意义的,例如导致“TTTT”的转录本。在一个这种情况中,设备可确定转录本的出现频率以便识别具有异常高的出现水平的转录本。设备可被配置为基于出现的频率确定指示噪声的转录本并且去除这些转录本。
在方框408,流程图400还包括试探式过滤。设备可利用试探式过滤在去除病态查询的任何转录本之后对修改后数据日志进行过滤。例如,设备可使用具有各种基于规则的参数的算法来去除用于训练的集合的修改后数据日志上可能不想要的额外转录本。设备可被配置为向一个数据日志同时应用多个基于规则的参数。
在方框410,流程图400包括训练特定语言的声学模型。设备在这个时间点可包含修改后数据日志,其可用作用于训练特定语言的声学模型的集合。修改后数据日志可由设备没有因为是病态查询或者没有通过试探式过滤去除的转录本组成。在一些示例中,设备可被配置为去除任何数据日志。修改后数据日志可被特定语言的声学模型以各种方式使用以便增大精确性。
在一些示例中,设备在流程图400的执行期间可按不同的顺序执行流程图400的功能或者选择重复一个或多个方框。例如,设备可执行方框404多次以将修改后日志转录到更高的精确程度。此外,设备在流程图400的执行期间可跳过任何方框。
图4B描绘了示例方法的流程图。方法412可包括如方框414-426中的一个或多个所示的一个或多个操作、功能或动作。虽然这些方框是按先后顺序示出的,但这些方框也可被并行执行,和/或按与本文描述的那些不同的顺序执行。另外,基于期望的实现方式,各种方框可被组合成更少的方框,划分成额外的方框,和/或被去除。
此外,对于方法412和本文公开的其他过程和方法,框图示出了这些实施例的一种可能实现方式的功能和操作。就此,每个方框可表示程序代码的模块、片段或部分,程序代码包括可由处理器或计算设备执行来实现该过程中的特定逻辑功能或步骤的一个或多个指令。程序代码可被存储在任何类型的计算机可读介质上,例如包括盘或硬盘驱动器的存储设备。计算机可读介质可包括非暂态计算机可读介质,例如像寄存存储器、处理器缓存和随机访问存储器(RAM)那样短时间存储数据的计算机可读介质。计算机可读介质还可包括非暂态介质,例如次级或永久长期存储装置,比如只读存储器(ROM)、光盘或磁盘、致密盘只读存储器(CD-ROM)。计算机可读介质也可以是任何其他易失性或非易失性存储系统。计算机可读介质可被认为是例如计算机可读存储介质,或者有形存储设备。
为了示例起见,图4B所示的方法412将被描述为由与客户端设备通信的服务器实现。应当理解,其他实体可实现示例方法的一个或多个步骤。
在方框414,方法412包括接收具有至少一个或多个口头查询的记录的数据日志。包括一个或多个诸如图2-3中论述的设备之类的设备的系统可接收一个或多个数据日志。类似地,多个实体可在例如图1中论述的示例系统这样的系统内接收/传送数据日志。一个或多个数据日志可包含各种口头查询的记录。数据日志和记录可被存储在一个或多个设备内、包括易失性或非易失性存储器在内的各种类型的存储器中。在一些示例中,数据日志可以只是存储数据日志的设备可访问的,或者可以是其他设备基于该设备的许可而可访问的。
另外,数据日志内的口头查询的记录可由记录的话语和/或暂停构成并且可例如由一个或多个设备捕捉。一个或多个话语可制定成群组或者可按各种方式被细分,例如细分成一个或多个音素。音素是用于形成话语之间的有意义对比的声音的小片段单元。此外,口头查询的记录可包括字词的部分、完整字词、短语、整个句子或者甚至多个句子。除了话语以外,口头查询的记录还可包括噪声或其他非语言元素,例如风或背景噪声。例如,从用户捕捉输入的设备也可捕捉背景噪声。捕捉到的噪声可按与口头输入相同的方式被存储在数据日志内并且在一些情况下也可与口头话语非常相似。虽然一些捕捉到的噪声可不影响话音识别系统,但有时捕捉到的噪声的转录本可对话音识别系统的效率和精确性有影响。从而,设备可尝试去除被确定为是捕捉的噪声的结果的任何转录本。
在方框416,方法412包括转录口头查询的记录。转录口头查询的记录可涉及系统内的设备为每个口头查询的记录确定文本转录本。例如,话音识别模块可接收包含口头查询的记录的一个或多个数据日志并且将这些记录转录成计算机可读格式。在一些情况中,话音识别模块可基于统计分布将文本串转录本匹配到数据日志中的每个话语。类似地,设备可使用模式匹配来为每个记录确定转录本。此外,话音识别系统可以按改进声学模型的方式使用转录本并且确定噪声与话音之间的一个或多个差别。其他设备可被配置为使用数据日志并且转录口头查询的记录。例如,与设备相关联的外部模块,例如服务器,可被配置为将记录转录成计算设备可使用的格式。
设备可被配置为实时地转录接收到的记录。在一些示例中,话音识别模块可使用额外的时间来转录一个或多个口头查询而不是实时转录。例如,设备可被配置为实时地转录口头查询的记录,但如图1所示的具有话音识别模块的服务器可被配置为以更慢的速率转录。用户可使用“语音控制”来操作移动电话并且期待来自移动电话的迅速转录。与之不同,在对于转录允许更多时间的情形中,话音识别模块可被配置为利用计算上更复杂的方法以更慢的速度提供转录。在一些示例中,设备可将一个或多个口头查询的记录转录多于一次以验证精确转录。
在方框418,方法412包括基于转录本与先前转录的查询的比较来在口头查询的记录的转录本内识别具有超过阈值的出现的转录本。一个或多个设备可被配置为跟踪某些口头查询的记录被转录的出现次数。话音识别系统可使用位于内部或外部的计数器来确定各种转录本可出现的次数。此外,一个或多个算法可被配置为基于转录本的出现频率来确定统计量。话音识别模块可被配置为定义阈值量或者计算确定具有特定出现量的所选转录本的不同方式。确定具有超过阈值的出现的口头查询的记录的转录本的其他示例也可存在。
在方框420,方法412包括利用语言模型和声学模型两者来处理与所识别的转录本相对应的口头查询的记录。一个或多个实体,例如话音识别模块,可处理与所识别的转录本相对应的口头查询的记录。不同的实体或同一实体可利用语言模型和声学模型两者来处理口头查询的记录。语言模型和声学模型在解码期间协力工作。
在解码时,设备可被配置为使用语言模型来处理口头查询的记录。语言模型可被配置为基于一个或多个算法向一个或多个口头查询赋予概率,例如概率分布。设备可被配置为使用语言模型来捕捉口头查询的各种属性并且可用于预测序列中的额外字词。语言模型可被配置为辅助话音识别模块确定字词序列的概率。
此外,系统可被配置为利用声学模型连同语言模型来处理口头查询的记录。系统可在语言模型的同时利用声学模型来处理记录以便执行解码。此外,系统可被配置为使用其他类型的模型来处理口头查询的记录。处理转录本的其他示例也可存在。
在一些情况中,声学模型可被配置为将口头查询的记录与其匹配转录本汇编成一个或多个统计表示,这些统计表示给出音频的给定时间片匹配特定音素的概率。在一些情况中,声学模型可被配置为通过将记录内的每个音素与存储的所有可能音素的分布相比较来估计口头查询的记录中的话语的各种音素。设备可使用一个或多个不同的音素字母表,并且这些字母表对于其中的各种音素可具有不同的文本表示。例如,字母“a”对于“cat”中的声音可由音素/ae/表示,对于“ate”中的声音可由音素/ey/表示,并且对于“beta”中的声音可由音素/ah/表示。其他音素表示是可能的。美式英语的常见音素字母表包含约40个不同的音素。通过匹配话语的音素,声学模型可从一个或多个口头查询的记录确定计算机可读格式。声学模型的结果可用于确定和/或检查口头查询的记录的各种转录本的精确性。
语言模型是一个统计模型,其可通过使用概率分布来给出目标语言的给定字词序列的概率。每个字词序列的长度可不同。在这种情况中,语言模型可包含并在比较中应用字词的序列的概率。可通过分析大量的字词,例如数百个、数千个、数百万个或更多个,来训练语言模型。字词可得自从用户和/或从书面文档记录的话语。例如,可基于在人类话音、书面文本(例如,电子邮件、网页、报告、学术论文、字处理文档等等)、搜索查询等等中出现的字词模式来确定或开发语言模型。在一些示例中,语言模型可用于捕捉语言的属性和/或用于预测话音序列中的下一字词。在一些情况中,语言模型可被设备用于基于语言模型的概率分布来确定转录本精确的概率。在一个这种示例中,语言模型可向很少出现的转录本赋予更低的概率。
在方框422,方法412包括基于对使用语言模型的处理与使用声学模型的处理的比较,从一个或多个数据日志中识别与被认为是由于噪声引起的转录本相对应的口头查询的记录和剩余的口头查询的记录。系统可被配置为比较利用语言模型和声学模型处理口头查询的记录的结果。例如,设备可使用由声学模型汇编的统计表示并且将这些统计量与由语言模型确定的概率相比较。这些模型可基于概率确定哪些转录本是精确的并且基于低概率和/或统计量确定可指示噪声的转录本。系统可比较结果的一个或多个因素。用于确定想要的转录本的一些因素可具有更高的优先级别。此外,设备可以把对于给定的口头查询的记录的转录本与由语言模型确定的概率和/或由声学模型汇编的统计表示相比较。在转录本不精确匹配由语言模型和声学模型产生的可能概率或统计量的情况中,设备可确定转录本可指示噪声。基于一个或多个比较,系统可被配置为去除系统认为是噪声的结果的口头查询的记录的转录本。
剩余的口头查询的记录可包括语言模型和声学模型不使得设备识别为噪声的任何记录。在其他示例中,剩余的口头查询的记录可以是设备没有识别为与被认为由噪声引起的转录本相对应的口头查询的记录。类似地,剩余的口头查询的记录可表示这样的转录本:设备认为这些转录本有价值或有用来用在修改后数据日志内用于训练数据集合。
另外,系统可以按各种其他方式确定转录本是否可指示噪声。例如,系统可基于与被确定为是精确转录本的先前转录本的比较来确定转录本是捕捉噪声的结果。系统可使用训练数据来通过使用已经去除了不想要的转录本的先前生成的修改后日志来确定最近创建的转录本的精确性。设备可确定不想要的转录本可指示病态查询并且作为响应去除不想要的转录本。病态查询可以是具有异常高的出现水平并且是噪声的结果的一个或多个转录本。
在方框424,方法412还包括生成包括剩余的口头查询的记录的一个或多个修改后数据日志。设备生成修改后数据日志可包括设备去除不想要的数据日志或者简单地将想要的数据日志组合到修改后日志中。设备可使用剩余的口头查询的记录来生成修改后数据日志。在一些示例中,设备可汇编来自服务器或其他设备的被认为不包含噪声的数据日志并且将它们整理在一起以创建一个或多个修改后数据日志。另外,设备可使用剩余的口头查询的记录中的一些来生成修改后日志。例如,一些修改后日志可包含剩余的口头查询的记录的不同部分。类似地,设备可被配置为生成多个修改后数据日志并且在这些修改后数据日志之间划分口头查询的记录。在一些示例中,生成的数据日志可不包含与如上文识别的被认为由于噪声引起的转录本相对应的记录。生成包含口头查询的记录的修改后数据日志的其他示例也可存在。
在方框426,方法412包括提供修改后数据日志和修改后数据日志内的口头查询的记录的关联转录本作为训练数据集合来更新特定语言的声学模型。修改后数据日志可被设备提供到特定语言的一个或多个声学模型以便训练。特定语言的声学模型可被配置为使用训练数据集合。在另一示例中,一个或多个服务器可被配置为提供修改后数据日志。特定语言的声学模型可使用修改后数据日志的多于一个集合来更新话音识别系统。另外,更新可时常实时发生并且在设备正在操作时在后台发生。一个或多个修改后数据日志可更新话音识别系统可用来将接收到的口头查询与之相比较的词汇表。更新后的词汇表可包含任何现行语法中的所有字词。其他示例也可存在。
在一些示例中,设备可通过使用具有话音识别器的话音识别模块从不想要的噪声中确定任何想要的音频输入来执行方法412。例如,话音识别模块可被配置为通过将当前转录本与先前修改后训练日志集合相比较来检测噪声与来自用户的想要的话语之间的差别。另外,设备也可被配置为检测口头查询的记录内的音质的偏移和/或变化。检测音质的偏移和/或变化可允许设备进一步检测话语与噪声之间的差别。
在执行方法412时,话音识别模块可被配置为转录接收到的数据日志以为接收到的每个话语确定转录本。在一些示例中,一个或多个设备可被配置为基于转录本与存储在设备内的转录本的匹配来确定置信得分。例如,置信得分可涉及转录本正确匹配话语的概率。置信得分也可由设备通过当前转录本与存储在存储器中的正确转录本的比较来确定。在执行方法412的各方框的整个过程中,可基于各种参数确定一个或多个置信得分。用于为转录本确定置信得分的其他方法或示例也可存在。
设备可被配置为在多步骤过程中选择话语。一个这种步骤可涉及设备检查可用于话音识别系统的所有数据日志以寻找适当的转录本。例如,设备可扫描数据日志内的许多话语。结果,设备可过滤掉低于特定置信阈值的所有数据日志。置信度可由设备对每个转录本确定,指示出该转录本正确的估计可能性(例如,80%确信、90%确信,等等)。在一个这种示例中,置信度可通过设备基于0到1的刻度向每个转录本赋予得分来确定,其中0表示不确信,并且1表示对转录本完全确信。在该示例中,设备可拒绝落在0.85的阈值水平或者另外的预定阈值水平以下的任何东西。在额外的过滤步骤中,计算设备可按置信度对话语排序并且保留前N个话语,其中N是表示可根据期望结果而改变的预定义数目的变量。N的值可表示训练良好质量模型所需要的数据集合大小。例如,系统可选择N等于大约2百万。
在转录的一个这种示例中,计算设备可被配置为训练单维输入上的逻辑回归函数,该函数可为口头查询的记录确定转录本。单维输入上的逻辑回归函数可进一步辅助计算设备确定当前转录本与来自过去转录本的假设转录本之间的良好匹配。响应于确定假设与转录本之间的良好匹配,设备可向正确的假设赋予更高的置信得分并且向不正确的或者不使用的假设赋予更低的置信得分。在算法确定该比较得出假设转录本与口头查询的转录本之间的不良匹配的情况下,可能有其他假设几乎像所选择的那个一样那么好地匹配该音频。
在一些另外的示例中,话音识别模块内的话音识别器可被配置为考虑话音查询的记录的上下文。以更慢、更精确的步速进行转录的话音识别模块与被要求在立即时间约束内提供转录本的话音识别模块相比,可能能够以更高效的方式使用话音查询的记录的上下文。从而,没有时间约束的系统可花充足量的更多时间来改善记录的转录本的精确性。在一些示例中,话音识别模块可使用解码,其控制多少个替换假设被认为是接收到的口头查询的记录的转录本。话音识别模块可被配置为调整解码的一个或多个参数,例如柱、弧的最大数目或者高斯选择质心的数目。
在一个示例中,使用特定语言的声学模型的设备可包括隐式马尔可夫模型(HMM)。HMM可将系统建模为具有未观察(即,隐藏)状态的马尔可夫过程。每个HMM状态可被表示为表征该状态的统计行为的多变量高斯分布。此外,每个状态也可与一个或多个状态转变相关联,这些状态转变指定作出从当前状态到另一状态的转变的概率。此外,神经网络也可表示多变量高斯分布。
此外,执行方法412的实体可基于接收到的所识别的话音查询增大对于先前转录本执行的搜索的范围。可通过使用额外的参数通过口头查询的记录的多个转录本来增大该范围。通过增大先前转录的话语的整体搜索范围,实体可以在更关注细节的情况下转录口头查询的记录,从而改善精确性。类似地,更复杂和先进的话音识别器可用于增大转录本的精确程度。例如,话音识别模块可被配置为作为基于神经网络的识别器来操作。神经网络可被配置为以自然且高效的方式允许区分式训练,例如对诸如个体音素和孤立字词之类的短时单元分类。
另外,由于一个或多个口头查询被记录并放置在数据日志内,所以转录过程可不具有来自任何CPU、存储器、存储装置的限制或其他可能限制。没有这些限制,可配置复杂的系统来转录和重转录任何音频。在一些示例中,多于一个系统可合作执行来转录口头查询的记录。
在转录的额外示例中,设备可进一步将数据日志的口头查询分解成各种话语以用于转录。一个或多个设备可被配置为识别转录本并且确定更精确的转录本。计算设备可被配置为使用话音识别器来为给定的音频输入在其模型中选择最佳转录本。转录的其他示例和方法也可存在。
在一个情况中,系统可被配置为基于试探式过滤来进一步过滤一个或多个数据日志。试探式过滤涉及系统的一个或多个实体向数据日志应用一个或多个基于规则的参数。系统可被配置为在整个方法412中执行试探式过滤或者可等待直到每个数据日志是修改后数据日志形式为止。当应用基于规则的参数时,系统可被配置为顺序地或者同时应用多个基于规则的参数。系统也可被配置为使用基于规则的参数的组合或者以更高的优先级别设定基于规则的参数中的一些。如上所述,系统可被配置为基于转录本确定置信得分并且去除系统确定没有超过阈值置信水平的任何转录本。系统还可确定另一个高的阈值水平,系统可要求转录本的置信得分超过该阈值水平。
此外,系统可被配置为确定记录中的口头查询的长度并且如果系统确定该记录没有符合阈值长度要求则去除该记录。在一些示例中,系统可被配置为去除不符合阈值长度要求的转录本。系统可能够基于更长的口头查询的记录确定更高的置信得分,因为系统可具有来自记录的更多声学证据来使得决定基于其上。
另外,系统可被配置为通过去除或拒绝包含数值序列的任何口头查询的记录来进一步过滤一个或多个数据日志。在一些示例中,系统可被配置为转录包含数值序列的口头查询的记录并且恰当地执行转录,但选择从用于训练特定语言的声学模型的修改后数据日志中去除该转录本。此外,系统可被配置为从用于训练的修改后日志中去除任何包含URL的转录本。
系统也可被配置为只接受来自给定应用的预定量的输入以免让修改后数据日志偏向于单个应用。类似地,系统和/或设备可被配置为基于与用户有关的生物信息来限制接收的数据日志的量。例如,系统可被配置为从设备确定为来自男性用户的用户接收阈值量的数据日志并且从女性用户接收阈值量的数据日志。
另外,汇编用于训练的修改后数据日志的系统可被配置为基于用户的动作确定转录本的精确性。系统可被配置为识别用户是否接受由系统的话音识别模块提供的转录本。例如,系统可在用户通过执行动作明确接受该形式之后为转录本确定高置信得分。高置信得分可使得系统将该特定转录本用在用于训练的修改后数据日志中。
图5图示了包含口头查询的记录的数据日志被修改成包含口头查询的转录本的修改后数据日志的示例。在该示例中,设备——例如具有话音识别模块的计算设备——可将数据日志500存储在存储器中。此外,设备可被配置为转录数据日志500内的口头查询的记录502以便创建修改后数据日志504,修改后数据日志504可被用作训练数据集合来更新特定语言的一个或多个声学模型。图5所示的示例示出了修改后数据日志504包含转录本506-512。除了执行方法412以外,一个或多个设备也可执行图5所示的示例。
设备或者设备的组件——例如话音识别模块——可访问数据日志500并且转录位于数据日志500内的一个或多个口头查询的记录502。同一设备可能捕捉到了口头查询的记录502或者可能从另一设备接收到了数据日志500。
图5示出了修改后数据日志504包括四个不同的转录本506-512。在其他示例中,修改后数据日志504可包括不同数目的转录本。该数目可取决于修改后日志从其接收转录本的口头查询的记录的数目。在修改后日志的另一示例中,可以有多得多的转录本。位于修改后数据日志504中的转录本506-512表示修改后数据日志504可用来训练特定语言的声学模型的示例转录本。在一些示例中,设备可使用比较来从修改后数据日志中去除一个或多个转录本以改善精确性。
在一个这种情况中,设备可被配置为通过执行方法412来去除转录本506“Tt”,方法412使得设备确定“Tt”指示噪声并且不是来自用户的想要的输入。在一些示例中,设备内的话音识别模块可执行方法412并且确定转录本506具有超过预定义阈值量的高出现并从而基于非寻常转录本的异常高出现量来选择去除转录本506。在这种情况中,设备可能从噪声或者某个其他不想要的声音捕捉到了记录并且将该记录转录成了转录本506。转录本506可能不是用于训练声学模型的修改后数据日志中想要的,使得设备使用各种手段来识别并去除转录本506,例如试探式过滤。类似地,设备可确定转录本506应当保持在修改后数据日志504中以用于训练。
此外,设备可被配置为将数据日志500转录多于一次。例如,设备可转录口头查询的记录502并且以更精确的过滤规则再一次重转录口头查询的记录502。设备可向转录本应用多个基于规则的参数来确定是去除转录本还是为修改后数据日志保留该转录本。
类似地,图5中所示的示例示出了修改后数据日志504还包括转录本508。转录本508是记录口头查询的书面文本“The tr-ee is big”。设备可被配置为确定是保留还是去除转录本508。在一个示例中,设备可确定转录本508是恰当的转录本并且将该转录本用在一个或多个修改后日志中来训练特定语言的声学模型。相反,如果系统确定不超过期望阈值的置信得分或者转录本的长度不符合或未超过期望长度,则系统可选择去除转录本508。另外,话音识别模块可因为其他原因保留或去除转录本508。
此外,修改后数据日志504还可包括转录本510和转录本512。设备可确定转录本510包含URL并且选择去除转录本510而不用在数据日志500的修改后版本中。在其他示例中,设备可选择保留转录本510。类似地,计算设备可被配置为执行设备动作来去除转录本512“Look at 5 6 4 3 2”,因为转录本512包含数值序列。相反,设备可选择将转录本512保留在修改后数据日志504中。这样,图5所示的示例只是说明性的。设备可被配置为向数据日志应用其他基于规则的参数来去除被认为是系统不想要用于训练特定语言的声学模型的修改后数据日志的一个或多个转录本。在一些示例中,构成的修改后日志可不要求设备去除任何不想要的转录本。
应当理解,本文描述的布置只是用于作为示例。因此,本领域技术人员将会明白,可以改为使用其他布置和其他元素(例如,机器、接口、功能、顺序以及功能的分组,等等),并且根据期望的结果可以完全省略一些元素。另外,所描述的元素中许多是可按任何适当的组合和位置实现为分立或分布的组件或者与其他组件结合实现的功能实体。
虽然本文已公开了各种方面和示例,但本领域技术人员将会清楚其他方面和示例。本文公开的各种方面和示例是为了说明,而并不打算进行限定,真实的范围由所附权利要求以及这种权利要求所应享有的完整等同范围来指示。还要理解,本文使用的术语只是为了描述特定实施例,而并不打算进行限定。

Claims (20)

1.一种用于话音识别的方法,包括:
接收一个或多个数据日志,其中所述一个或多个数据日志包括至少一个或多个口头查询的记录;
转录一个或多个口头查询的记录;
在所述一个或多个口头查询的记录的转录本内识别具有超过阈值的出现的转录本,其中所述阈值是基于转录本与先前转录的查询的比较的;
由计算设备利用语言模型和声学模型两者来处理与所识别的转录本相对应的口头查询的记录;
基于对利用语言模型的处理与利用声学模型的处理的比较,从所述一个或多个数据日志中识别与被认为是由于噪声引起的转录本相对应的一个或多个口头查询的记录和剩余的一个或多个口头查询的记录;
生成包括剩余的口头查询的记录的一个或多个修改后数据日志;以及
提供所述一个或多个修改后数据日志和所述一个或多个修改后数据日志内的一个或多个口头查询的记录的关联转录本作为训练数据集合来更新特定语言的一个或多个声学模型。
2.如权利要求1所述的方法,还包括:
基于利用语言模型和声学模型两者处理与所识别的转录本相对应的口头查询的记录来确定置信得分;以及
基于所述置信得分从所述一个或多个数据日志中去除给定的口头查询的记录。
3.如权利要求1所述的方法,还包括也基于转录本的长度来识别转录本。
4.如权利要求1所述的方法,还包括去除包括一个或多个数值序列的一个或多个口头查询的记录的一个或多个转录本。
5.如权利要求1所述的方法,还包括去除包括统一资源定位符URL的转录本。
6.如权利要求1所述的方法,其中,接收一个或多个数据日志还包括从一个或多个应用接收达到阈值量的数据日志。
7.如权利要求1所述的方法,其中,接收一个或多个数据日志还包括基于用户的性别接收某个量的话音查询。
8.一种计算机可读介质,其中存储有指令,所述指令当被计算设备执行时使得该计算设备执行功能,所述功能包括:
接收一个或多个数据日志,其中所述一个或多个数据日志包括至少一个或多个口头查询的记录;
转录一个或多个口头查询的记录;
在所述一个或多个口头查询的记录的转录本内识别具有超过阈值的出现的转录本,其中所述阈值是基于转录本与先前转录的查询的比较的;
利用语言模型和声学模型两者来处理与所识别的转录本相对应的口头查询的记录;
基于对利用语言模型的处理与利用声学模型的处理的比较,从所述一个或多个数据日志中识别与被认为是由于噪声引起的转录本相对应的一个或多个口头查询的记录和剩余的一个或多个口头查询的记录;
生成包括剩余的口头查询的记录的一个或多个修改后数据日志;以及
提供所述一个或多个修改后数据日志和所述一个或多个修改后数据日志内的一个或多个口头查询的记录的关联转录本作为训练数据集合来更新特定语言的一个或多个声学模型。
9.如权利要求8所述的计算机可读介质,其中,所述功能还包括:
基于利用语言模型和声学模型两者处理与所识别的转录本相对应的口头查询的记录来确定置信得分;以及
基于所述置信得分从所述一个或多个数据日志中去除给定的口头查询的记录。
10.如权利要求8所述的计算机可读介质,其中,所述功能还包括也基于转录本的长度来识别转录本。
11.如权利要求8所述的计算机可读介质,其中,所述功能还包括去除包含一个或多个数值序列的一个或多个口头查询的记录的一个或多个转录本。
12.如权利要求8所述的计算机可读介质,其中,所述功能还包括去除包括统一资源定位符URL的转录本。
13.如权利要求8所述的计算机可读介质,其中,接收一个或多个数据日志的功能还包括从一个或多个应用接收达到阈值量的数据日志。
14.如权利要求8所述的计算机可读介质,其中,所述功能还包括基于用户的性别接收某个量的话音查询。
15.一种用于话音识别的系统,包括:
至少一个处理器;以及
数据存储装置,包括可被所述至少一个处理器执行来使得所述至少一个处理器执行功能的程序指令,所述功能包括:
接收一个或多个数据日志,其中所述一个或多个数据日志包括至少一个或多个口头查询的记录;
转录一个或多个口头查询的记录;
在所述一个或多个口头查询的记录的转录本内识别具有超过阈值的出现的转录本,其中所述阈值是基于转录本与先前转录的查询的比较的;
利用语言模型和声学模型两者来处理与所识别的转录本相对应的口头查询的记录;
基于对利用语言模型的处理与利用声学模型的处理的比较,从所述一个或多个数据日志中识别与被认为是由于噪声引起的转录本相对应的一个或多个口头查询的记录和剩余的一个或多个口头查询的记录;
生成包括剩余的口头查询的记录的一个或多个修改后数据日志;以及
提供所述一个或多个修改后数据日志和所述一个或多个修改后数据日志内的一个或多个口头查询的记录的关联转录本作为训练数据集合来更新特定语言的一个或多个声学模型。
16.如权利要求15所述的系统,其中,所述功能还包括:
基于利用语言模型和声学模型两者处理与所识别的转录本相对应的口头查询的记录来确定置信得分;以及
基于所述置信得分从所述一个或多个数据日志中去除给定的口头查询的记录。
17.如权利要求15所述的系统,其中,所述功能还包括也基于转录本的长度来识别转录本。
18.如权利要求15所述的系统,其中,所述功能还包括去除包括一个或多个数值序列的一个或多个口头查询的记录的一个或多个转录本。
19.如权利要求15所述的系统,其中,所述功能还包括去除包括统一资源定位符URL的转录本。
20.如权利要求15所述的系统,其中,所述功能还包括从一个或多个应用接收达到阈值量的数据日志。
CN201380072375.2A 2013-01-04 2013-12-20 基于话音记录日志提供话音识别系统的方法和系统 Active CN104969288B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US13/734,296 2013-01-04
US13/734,296 US8494853B1 (en) 2013-01-04 2013-01-04 Methods and systems for providing speech recognition systems based on speech recordings logs
PCT/US2013/077186 WO2014107356A1 (en) 2013-01-04 2013-12-20 Methods and systems for providing speech recognition systems based on speech recordings logs

Publications (2)

Publication Number Publication Date
CN104969288A CN104969288A (zh) 2015-10-07
CN104969288B true CN104969288B (zh) 2018-09-18

Family

ID=48792424

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201380072375.2A Active CN104969288B (zh) 2013-01-04 2013-12-20 基于话音记录日志提供话音识别系统的方法和系统

Country Status (4)

Country Link
US (1) US8494853B1 (zh)
EP (2) EP3734595A1 (zh)
CN (1) CN104969288B (zh)
WO (1) WO2014107356A1 (zh)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9465833B2 (en) 2012-07-31 2016-10-11 Veveo, Inc. Disambiguating user intent in conversational interaction system for large corpus information retrieval
US10121493B2 (en) * 2013-05-07 2018-11-06 Veveo, Inc. Method of and system for real time feedback in an incremental speech input interface
US20150081294A1 (en) * 2013-09-19 2015-03-19 Maluuba Inc. Speech recognition for user specific language
US20150161986A1 (en) * 2013-12-09 2015-06-11 Intel Corporation Device-based personal speech recognition training
US9854049B2 (en) 2015-01-30 2017-12-26 Rovi Guides, Inc. Systems and methods for resolving ambiguous terms in social chatter based on a user profile
US9966073B2 (en) 2015-05-27 2018-05-08 Google Llc Context-sensitive dynamic update of voice to text model in a voice-enabled electronic device
US10083697B2 (en) 2015-05-27 2018-09-25 Google Llc Local persisting of data for selectively offline capable voice action in a voice-enabled electronic device
US9870196B2 (en) * 2015-05-27 2018-01-16 Google Llc Selective aborting of online processing of voice inputs in a voice-enabled electronic device
US9881613B2 (en) * 2015-06-29 2018-01-30 Google Llc Privacy-preserving training corpus selection
US10133821B2 (en) * 2016-01-06 2018-11-20 Google Llc Search result prefetching of voice queries
US9870765B2 (en) * 2016-06-03 2018-01-16 International Business Machines Corporation Detecting customers with low speech recognition accuracy by investigating consistency of conversation in call-center
US10019986B2 (en) 2016-07-29 2018-07-10 Google Llc Acoustic model training using corrected terms
US10490183B2 (en) * 2017-11-22 2019-11-26 Amazon Technologies, Inc. Fully managed and continuously trained automatic speech recognition service
US10269376B1 (en) * 2018-06-28 2019-04-23 Invoca, Inc. Desired signal spotting in noisy, flawed environments
CN111307197B (zh) * 2018-12-11 2024-04-30 迈普通信技术股份有限公司 一种信息记录方法及管理设备
US11257484B2 (en) * 2019-08-21 2022-02-22 Microsoft Technology Licensing, Llc Data-driven and rule-based speech recognition output enhancement
US11580959B2 (en) * 2020-09-28 2023-02-14 International Business Machines Corporation Improving speech recognition transcriptions
GB2599928A (en) * 2020-10-14 2022-04-20 Sony Interactive Entertainment Inc Apparatus and method for audio data analysis
CN114120979A (zh) * 2022-01-25 2022-03-01 荣耀终端有限公司 语音识别模型的优化方法、训练方法、设备及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5799279A (en) * 1995-11-13 1998-08-25 Dragon Systems, Inc. Continuous speech recognition of text and commands
CN1337817A (zh) * 2000-08-16 2002-02-27 庄华 电话交互式语音查询无线网页内容
US7412383B1 (en) * 2003-04-04 2008-08-12 At&T Corp Reducing time for annotating speech data to develop a dialog application
CN101593543A (zh) * 2003-07-31 2009-12-02 索尼电子有限公司 数字语音记录器对个人信息管理器的自动同步
CN101971250A (zh) * 2008-03-13 2011-02-09 索尼爱立信移动通讯有限公司 具有活动语音识别的移动电子设备
CN102867276A (zh) * 2012-08-14 2013-01-09 俞琳 基于电力业务系统的交互式控制方法

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0645757B1 (en) * 1993-09-23 2000-04-05 Xerox Corporation Semantic co-occurrence filtering for speech recognition and signal transcription applications
US6418431B1 (en) * 1998-03-30 2002-07-09 Microsoft Corporation Information retrieval and speech recognition based on language models
US7113910B1 (en) * 2000-02-18 2006-09-26 At&T Corp. Document expansion in speech retrieval
US6985861B2 (en) * 2001-12-12 2006-01-10 Hewlett-Packard Development Company, L.P. Systems and methods for combining subword recognition and whole word recognition of a spoken input
US20030195751A1 (en) * 2002-04-10 2003-10-16 Mitsubishi Electric Research Laboratories, Inc. Distributed automatic speech recognition with persistent user parameters
US7236931B2 (en) * 2002-05-01 2007-06-26 Usb Ag, Stamford Branch Systems and methods for automatic acoustic speaker adaptation in computer-assisted transcription systems
US7523034B2 (en) * 2002-12-13 2009-04-21 International Business Machines Corporation Adaptation of Compound Gaussian Mixture models
US7606714B2 (en) * 2003-02-11 2009-10-20 Microsoft Corporation Natural language classification within an automated response system
US8412521B2 (en) * 2004-08-20 2013-04-02 Multimodal Technologies, Llc Discriminative training of document transcription system
US7827032B2 (en) * 2005-02-04 2010-11-02 Vocollect, Inc. Methods and systems for adapting a model for a speech recognition system
US20070083373A1 (en) * 2005-10-11 2007-04-12 Matsushita Electric Industrial Co., Ltd. Discriminative training of HMM models using maximum margin estimation for speech recognition
US7756708B2 (en) * 2006-04-03 2010-07-13 Google Inc. Automatic language model update
US20080130699A1 (en) * 2006-12-05 2008-06-05 Motorola, Inc. Content selection using speech recognition
US9280969B2 (en) * 2009-06-10 2016-03-08 Microsoft Technology Licensing, Llc Model training for automatic speech recognition from imperfect transcription data
US8234111B2 (en) * 2010-06-14 2012-07-31 Google Inc. Speech and noise models for speech recognition
EP2638542B1 (en) * 2010-11-08 2014-08-06 Google, Inc. Generating acoustic models
EP2727103B1 (en) * 2011-06-30 2014-12-31 Google, Inc. Speech recognition using variable-length context
US8972263B2 (en) * 2011-11-18 2015-03-03 Soundhound, Inc. System and method for performing dual mode speech recognition

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5799279A (en) * 1995-11-13 1998-08-25 Dragon Systems, Inc. Continuous speech recognition of text and commands
CN1337817A (zh) * 2000-08-16 2002-02-27 庄华 电话交互式语音查询无线网页内容
US7412383B1 (en) * 2003-04-04 2008-08-12 At&T Corp Reducing time for annotating speech data to develop a dialog application
CN101593543A (zh) * 2003-07-31 2009-12-02 索尼电子有限公司 数字语音记录器对个人信息管理器的自动同步
CN101971250A (zh) * 2008-03-13 2011-02-09 索尼爱立信移动通讯有限公司 具有活动语音识别的移动电子设备
CN102867276A (zh) * 2012-08-14 2013-01-09 俞琳 基于电力业务系统的交互式控制方法

Also Published As

Publication number Publication date
EP2941768A1 (en) 2015-11-11
WO2014107356A1 (en) 2014-07-10
EP3734595A1 (en) 2020-11-04
US8494853B1 (en) 2013-07-23
CN104969288A (zh) 2015-10-07

Similar Documents

Publication Publication Date Title
CN104969288B (zh) 基于话音记录日志提供话音识别系统的方法和系统
US8170866B2 (en) System and method for increasing accuracy of searches based on communication network
Lung et al. Fuzzy phoneme classification using multi-speaker vocal tract length normalization
JP5330450B2 (ja) テキストフォーマッティング及びスピーチ認識のためのトピック特有のモデル
CN110335612A (zh) 基于语音识别的会议记录生成方法、装置及存储介质
CN102906735B (zh) 语音流增强的笔记记录
CN1645477B (zh) 使用用户纠正的自动语音识别学习
CN110263322A (zh) 用于语音识别的音频语料筛选方法、装置及计算机设备
JP6585112B2 (ja) 音声キーワード検出装置および音声キーワード検出方法
CN110335608B (zh) 声纹验证方法、装置、设备及存储介质
CN111429914B (zh) 麦克风控制方法、电子装置及计算机可读存储介质
CN104462912A (zh) 改进的生物密码安全
CN113555133A (zh) 一种医疗问诊数据处理方法和装置
Fauziya et al. A Comparative study of phoneme recognition using GMM-HMM and ANN based acoustic modeling
US8600750B2 (en) Speaker-cluster dependent speaker recognition (speaker-type automated speech recognition)
US9514122B1 (en) Processing natural language grammar
JP2017198790A (ja) 音声評定装置、音声評定方法、教師変化情報の生産方法、およびプログラム
JP4856526B2 (ja) 音響モデルパラメータ更新処理方法、音響モデルパラメータ更新処理装置、プログラム、記録媒体
CN114049885B (zh) 标点符号识别模型构建方法和装置
CN116564286A (zh) 语音录入方法、装置、存储介质及电子设备
Koolagudi et al. Vowel recognition from telephonic speech using MFCCs and Gaussian mixture models
CN114067807A (zh) 音频数据处理方法、装置及电子设备
Hanumesh et al. Semantic Enrichment of Video Content using NLP Transformer Networks
Gambhir et al. Residual networks for text-independent speaker identification: Unleashing the power of residual learning
Motyka et al. Information Technology of Transcribing Ukrainian-Language Content Based on Deep Learning

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: American California

Applicant after: Google limited liability company

Address before: American California

Applicant before: Google Inc.

GR01 Patent grant
GR01 Patent grant