CN103262156A

CN103262156A - 语音识别语言模型

Info

Publication number: CN103262156A
Application number: CN2011800522608A
Authority: CN
Inventors: 阿舒拓史·A·马勒高恩卡; 甘努·萨蒂施·库玛; 盖德·K·M·乔尔特
Original assignee: Cisco Technology Inc
Current assignee: Cisco Technology Inc
Priority date: 2010-08-27
Filing date: 2011-08-09
Publication date: 2013-08-21
Anticipated expiration: 2031-08-09
Also published as: EP2609588B1; EP2609588A1; US20120053935A1; CN103262156B; US8532994B2; WO2012027095A1

Abstract

在一种实施方式中，语音或音频通过语音识别系统转换成可搜索的格式。该语音识别系统使用包括某些词的出现概率的语言模型，这些概率可以取决于其他词或词序列的出现。该语言模型是部分地从个人词表构建的。个人词表是通过来自网络流量的已知文本确定的，该网络流量包括电子邮件以及互联网帖子。该语音识别系统可以基于两个用户之间的联系将一个用户的个人词表并入到另一个用户的语言模型中。该联系可以由电子邮件、电话通话或者社交网络服务中的互动来触发。该语音识别系统可以基于从得出的语言模型计算出的置信分值来移除或添加个人词表到语言模型中。

Description

语音识别语言模型

技术领域

本发明实施例涉及语音识别或者语音到文本的转换。

背景技术

互联网上可用的信息量已呈指数增长。这样的内容只有通过使用搜索引擎才能够被有效地消耗。越来越大比例的内容是不能够被轻易地搜索的语音或音频。语音识别将讲出的话语转换成文本，这使得语音或音频能利用搜索引擎被搜索到。

语音识别软件的开发开始于20世纪80年代。早期的语音识别软件可以从有限的词表中识别出一个个地说出的词。词表可以很容易增加，但是在20世纪90年代初期高词表系统受50％以下的准确度困扰，致使大多数系统实际上都无法使用。识别正常讲出的连续话语的第一个商业产品是在1997年发布的。语音识别软件的最大改进并没有经历语音识别技术的新发展。反而，这些改进是运算能力与数据存储的增加与降低成本相结合的结果。然而，商业产品的准确率已经达到70%至80%左右的稳定水平。此外，将所有语言中的所有可能词语都列入的尝试已经导致一万亿的词表。然而，更大的词表或者运算能力或数据存储的增加可能并不能提供识别准确性的额外的显著增加。

附图说明

图1示出语音识别系统的一实施例。

图2示出包含该语音识别系统的网络。

图3示出该语音识别系统的解码器的更详细视图。

图4示出该语音识别系统的操作的功能方块图。

图5示出该语音识别系统所使用的示例社交图。

图6示出该语音识别系统所采用的方法的一个实施例的流程图。

图7示出该语音识别系统所采用的方法的另一实施例的流程图。

具体实施方式

概述

语音识别系统将语音或音频转换成能够被搜索的文本。语音识别系统使用专门针对特定职业的语言模型。改进的语言模型可以被使用特定个体的词表以及该个体的社交图中其他个体的词表来针对该特定个体进行裁剪。基于来自一用户和/或该用户的对等方的文本自动地连续构建语言模型提高了语音文字记录的准确性。例如，对等方可以从电子邮件或社交网络联系人中被识别出，并且语言模型可以从电子邮件、超文本传输协议（HTTP）帖子或者任何与对等方或该用户有关的网络流量来构建。

在一个方面中，一种方法包括：监视来自多个用户的网络流量，所述多个用户包括第一用户以及第二用户；从所述网络流量中提取词；为所述多个用户中的每一个用户构建个人词表；以及利用至少部分基于所述第二用户的个人词表的语言模型将所述第一用户的音频转换成文本。

在第二方面中，一种设备包括：收集器接口，被配置为监视来自包括第一用户以及第二用户的多个用户的网络流量，并且从所述网络流量中提取n元语法（n-grams）；存储器，被配置为存储所述多个用户中的每个用户的个人词表；以及控制器，被配置为利用至少部分基于所述第二用户的个人词表的语言模型将所述第一用户的音频转换成文本。

在第三方面中，编码在一个或多个非暂时有形介质中的逻辑可由处理器执行，并且可操作来：监视来自包括第一用户以及第二用户的多个用户的网络流量；从所述网络流量中提取词；为所述多个用户中的每个用户从所述词构建个人词表；利用基于所述第一用户的个人词表的第一语言模型将所述第一用户的音频转换成文本；利用所述第一语言模型计算所述文本的置信分值；将所述置信分值与一预定阈值进行比较；以及如果所述置信分值未超过所述预定阈值，则利用基于所述第一用户的个人词表和所述第二用户的个人词表的第二语言模型将所述第一用户的音频转换成文本。

示例性实施例

通过简单地构建更大的词表或提高语音识别系统的运算能力来提高识别的准确性可能不显著。实际上，在很多情况下，向通用的词表中添加词语实际上往往降低了语音识别系统的识别准确性。随着进行选择的词语的数量增加，选择错误词语的可能性也可能增加。为了改进，语音识别系统必须通过在提高语音到文本转换的准确性的同时减小词表大小来变得更加智能。

减小词表大小的一种方式是个性化该系统的词表。例如，系统可以被预加载有为某些职业指定的词表，这些职业例如是医生、工程师、律师或银行业者。当然，不是所有的医生都使用相同的词表，并且一个医生不总是谈论医学话题。减小词表大小的另一种方式是将词表针对特定个体进行个性化。例如，通过从各种最终用户智能地收获网络数据，可以通过观察该网络上每个用户的交互/流量来创建个人词表。

网络流量包括各种来自最终用户的通信。例如，网络数据可包括在电子邮件、HTTP事务、文件（例如Word或PDF）、文本消息、即时消息、博客帖子等当中。此外，识别系统可以对语言模型加权的方式评估最终用户是否代表内容的产生者（例如，发送者、发帖者等），还是代表内容的消耗者（例如，接收者、受众成员等）。

从一个用户的网络流量创建的个人词表受该特定用户的习惯的限制。例如，如果用户极少产生或消耗内容，那么个人词表就不会发展。然而，人们通常拥有与他们周围的人类似的词表。由部分基于与该用户有一定联系的其他用户的网络流量的用户个人词表，可以产生进一步的改进。换句话说，基于一个或多个其他用户的网络流量或个人词表的一个用户的个人词表可选择性地减小该个人词表的大小或更好地集中该词表，从而增加识别的准确性。

图1示出语音识别系统的一实施例。语音101在一个或多个端点20处被接收。解码器10接收来自声学模型103、词典模型105以及语言模型107的输入，以解码该语音。解码器10将语音101转换成文本，该文本作为词网格101输出。解码器10还可计算置信分值113，置信分值113还可以是置信区间。

语音101可以是模拟信号。该模拟信号可以不同的采样速率（即，每秒钟的样本数——最常见的是：8kHz、16kHz、32kHz、44.1kHz、48kHz以及96kHz）和/或不同的每样本比特（最常见的是：8比特、16比特或32比特）来编码。如果用以和被识别的语音相同的采样速率/每样本比特记录的音频来创建声学模型，则语音识别系统可以被改进。

声学模型103、词典模型105以及语言模型107中的一个或多个可存储在解码器10中，或者可从外部数据库接收。声学模型103可以根据对语音和人发展的文字记录的统计学分析而创建。该统计学分析涉及组成每个词的声音。声学模型103可以从称作“训练（training）”的程序创建。在训练时，用户向语音识别系统讲指定的词。声学模型103是可选的。

词典模型105是发音词表。例如，存在可以对同一词语进行发音的不同方式。例如，词语“car（汽车）”在新英格兰的州与美国其他州有不同的发音。语音识别系统利用词典模型105识别各种发音。词典模型105是可选的。

语言模型107限定词语出现在句子中的概率。例如，语音识别系统可将语音识别为“resident（居民）”或者“president（总统）”，每种可能性具有相等的似然性。然而，如果随后的词被识别为“Obama（奥巴马）”，那么语言模型107则表明早前的词语有很高的概率是“president（总统）”。语言模型107可以从文本数据构建。语言模型107可包括词语序列的概率分布。该概率分布可以是条件概率（即，在另一个词语出现的情况下一个词语的概率）。

例如，语言模型方法是随机语音识别形式化（stochastic speechrecognition formalism）的一部分，所述随机语音识别形式化通过使词语w1…wM的后验概率P（w1…wM）P（x1…xT︱w1…wM）最大化，从其声学观察中确定词语序列。因式分解后的概率（factorized probability）P（x1…xT︱w1…wM）表示在观察声学特征x1…xT时在给出词语序列的情况下的条件概率。函数P（w1…wM）指的是在给出词语序列w1…wM的情况下的先验概率。所述分布通过考虑语言的句法的、语义的以及语用的构成来描述该语言，并且可以被专用领域和任务约束。语言建模的目的是为了估计先验概率P（w1…wM）。

概率分布可以根据n元语法（n-gram）频率计数来计算。n元语法是来自另一序列的n个项目的序列。在这种情况下，n元语法可以是词、音节、音素或音子的序列。音节是词的音位构建块。音素是更小的构建块。音素可以被定义为用来区分话语的最小声音片段单位。因此，音素是一组均被所涉及的语言或方言的讲话人感知为具有相同作用的略微不同的声音。音素可以是音子的集合。音子是语音声音，其可以用作语音识别的基本单位。音子可以被限定为任何语音片段，该语音片段具有明显不同的物理上或感觉上的性质。

语言模型107中使用的n元语法频率计数可以被解码器10改变。n的值可以是任意整数，并且可以随时间而改变。n的示例值包括1、2和3，可分别指一元语法（unigram）、二元语法（bigram）以及三元语法（trigram）。n元语法语料库是在构建语言模型时可以使用的n元语法的集合。考虑短语“在热铁皮屋顶上的猫（cat on a hot tin roof）”。基于词的三元语法包括“cat on a”、“on a hot”、“a hot tin”以及“hot tinroof”。另外的三元语法可包括“#cat on”以及“tin roof#”，其中#表示空格或标点符号。

图2示出包含语音识别系统的网络。解码器10通过通信路径30a-30f与一个或多个端点20a-20f通信。解码器10将从端点20a-20f接收的音频或语音转换成文本。该语音或音频可以是端点20a-20f已经上传到网络或网站的视频。一旦语音或音频被转换成文本，它就可以被搜索。这样，视频可以不是简单地通过搜索标题、关键词或摘要而被定位，而是可以通过搜索该视频的实际内容而被定位。每一个端点20a-20f可以是个人计算机、VoIP电话、移动电话或者任何能够接收音频或语音并与网络通信的设备。

语音或音频还可以是会议（例如，电话会议或者视频会议）。解码器10可以转换来自正在参与会议的端点20a-20f的音频或语音。这样，可以被进行文本搜索的会议文字记录被创建，这允许对会议期间发生的特定观点或讨论的快速提及。在任一种情况下，控制器13可以将语音或音频的文本用于分众分类法（folksonomy）。分众分类法是利用标签把内容归类的系统。标签云是分众分类法的直观表示。

图3示出语音识别系统的解码器10的更详细视图。解码器10可以是网络设备。解码器10包括控制器13、存储器11、数据库17以及通信接口，该通信接口包括输入接口15a和输出接口15b。输入接口15a接收来自端点20a-20f的语音。输出接口15b可以将解码后的文本提供至外部数据库或搜索引擎。或者，解码后的文本可以存储于数据库17。可以设置额外的、不同的或更少的组件。

声学模型103、词典模型105以及语言模型107中的一个或多个可被存储于存储器11或数据库17。存储器11可以是任何已知类型的易失性存储器或非易失性存储器。存储器11可包括只读存储器（ROM）、动态随机存取存储器（DRAM）、静态随机存取存储器（SRAM）、可编程随机存取存储器（PROM）、闪存、电子可擦除编程只读存储器（EEPROM）、静态随机存取存储器（RAM）或其他类型存储器中的一个或多个。存储器11可包括光的、磁的（硬盘驱动器）或任何其他形式的数据存储装置。存储器11可位于远程装置中或者是可移除的，例如安全数字（SD）存储卡。

数据库17可以在解码器10的外部或者包含在解码器10内。数据库17可以由存储器11来存储或者单独存储。数据库17可以被实现为硬件或者软件。

存储器11可以存储计算机可执行指令。控制器13可以执行计算机可执行指令。计算机可执行指令可包含在计算机代码中。计算机代码可存储于存储器11中。计算机代码可以任何计算机语言来编写，例如C、C++、C#、Java、Pascal、Visual Basic、Perl、超文本标记语言（HTML）、JavaScript、汇编语言、可扩展标记语言（XML）及其任意组合。

计算机代码可以是编码在一个或多个有形介质或者一个或多个非暂时有形介质中以便由控制器13执行的逻辑。编码在一个或多个有形介质中以便执行的逻辑可被定义为可由控制器13执行的指令，并且这些指令是扎起计算机可读取存储介质、存储器或它们的组合上提供的。用来命令网络设备的指令可存储在任何逻辑上。正如本文中使用的，“逻辑”包括但不限于硬件、固件、在机器上执行的软件和/或各自的组合，用于实现（一个或多个）功能或（一个或多个）动作，和/或促成来自另一个逻辑、方法和/或系统的功能或动作。逻辑可包括例如软件控制的微处理器、ASIC、模拟电路、数字电路、编程的逻辑装置以及包含指令的存储器装置。

指令可存储在任何计算机可读介质上。计算机可读介质可以包括但不限于软盘、硬盘、专用集成电路（ASIC）、紧致盘CD、其他光学介质、随机存取存储器（RAM）、只读存储器（ROM）、存储芯片或卡、存储棒以及计算机、处理器或其他电子设备可以从中进行读取的其他介质。

控制器13可以包括一般处理器、数字信号处理器、专用集成电路、现场可编程门阵列、模拟电路、数字电路、服务器处理器、上述各项的组合，或者其他现在已知的或稍后开发的处理器。控制器13可以是例如与网络或分布处理有关的单个装置或者多个装置的组合。此外，本领域普通技术人员认识到，控制器13可以为语音识别实现维特比（Viterbi）解码算法。可以使用各种处理策略中的任意策略，例如多处理、多任务、并行处理、远程处理、集中处理等等。控制器13可以做出响应或可操作来执行作为软件、硬件、集成电路、固件、微代码等而存储的指令。在附图中示出或者在本文中描述的功能、动作、方法或任务可以由执行存储于存储器11中的指令的控制器13来执行。这些功能、动作、方法或任务独立于指令集、存储介质、处理器或处理策略的具体类型，并且可以由独立地或者组合地运行的软件、硬件、集成电路、固件、微代码等执行。这些指令是为了实现本文中描述的处理、技术、方法或动作。

（一个或多个）I/O接口15a-15b可以包括任何可操作的连接。可操作的连接可以是一种可以发送和/或接收信号、物理通信和/或逻辑通信的连接。可操作的连接可以包括物理接口、电气接口和/或数据接口。可操作的连接可以包括足以允许可操作的控制的接口和/或连接的不同组合。例如，两个实体可以被可操作地连接以向彼此传送信号，或者通过一个或多个中间实体（例如，处理器、操作系统、逻辑、软件）传送信号。可以利用逻辑通信信道和/或物理通信信道来建立可操作的连接。例如，I/O接口15a-15b可以包括专门用来发送数据、分组或数据报的第一通信接口以及专门用来接收数据、分组或数据报的第二通信接口。或者，I/O接口15a-15b可以利用单个通信接口来实现。

参阅图2，通信路径30a-30f可以是用来将服务器耦合到计算机的任何协议或者物理连接。通信路径30a-30f可以利用以太网、无线、传输控制协议（TCP）、互联网协议（IP）或多协议标签交换（MPLS）技术。正如本文中使用的，短语“通信”和“耦合”被定义为表示直接连接或者通过一个或多个中间组件间接连接。这样的中间组件既可以包括基于硬件的组件又可以包括基于软件的组件。

图4示出语音识别系统的操作。端点20a与20b向网络401发送流量409a和409b。端点20a与20b还可以从网络401接收流量。收集器403从网络流量中提取n元语法。这些n元语法可以是词、音节、音素或者音子，并且n可以等于任何数字。收集器403可以并入网络设备或解码器10中。或者，如图4所示，收集器403可以在解码器10外部。例如，收集器403可以是另一个网络设备。收集的网络流量可以被打上标签并分类，以便选择性地从相关的内容创建个人词表，或者在构建个人词表时可使用所有收集的网络流量。

解码器10使用收集器403从来自端点20a的流量409a收集的n元语法来构建第一个人词表（PV1）405a。同样，解码器10使用收集器403从来自端点20b的流量109b收集的n元语法来构建第二个人词表（PV2）405b。解码器可以使用第一个人词表405a、第二个人词表405b或者它们二者来得出语言模型407a。语言模型407a用于将来自端点20a的音频或语音转换成文本。

解码器10的控制器13基于在端点20a与20b之间识别出的联系来确定使用第一个人词表405a、第二个人词表405b还是它们二者来得出语言模型407a。该联系可以由电子邮件、电话通话、社交网络联系或者其他链接来触发。

电子邮件触发物可以是从第一用户向第二用户发送的电子邮件、从第二用户向第一用户发送的电子邮件、列出第一用户和第二用户作为接收人的电子邮件、列出第一用户和第二用户中的一者作为接收人并且在电子邮件正文中列出第一用户和第二用户中的另一者的来自第三用户的电子邮件、和/或在电子邮件正文中列出第一用户和第二用户的电子邮件。这些情况的任何一种都可以表示第一用户和第二用户具有联系，并且一个用户的个人词表可以并入另一用户的语言模型中。

同样，电话通话可以触发联系。电话通话使用互联网协议语音（VoIP）。例如，如果端点20a呼叫端点20b，那么两个用户就具有联系。两个用户的个人词表可补充彼此的语言模型。除了限定用户之间的联系之外，还可以对VoIP通话进行内容分析。VoIP通话的内容被划分成在网络上转发的分组。这些分组包括可以由解码器10转换成文本以识别该通话的主题或者创建可以被文字搜索的通话文字记录的语音。

联系和从其他用户选择的词表可以是基于内容的。除了发起联系的存在之外，可还以通过主题来识别电子邮件或内容。例如，考虑三个用户：用户A、用户B以及用户C。用户A和用户B都是软件工程师。用户A和用户C都喜欢航行。用来识别用户A与用户B之间的联系的电子邮件可能具有例如“协议”、“编译”或“代码”这样的主题关键词。稍后的涉及用户A但不一定涉及用户B的包含主题关键词的视频帖子或会议被识别与编程有关。在这种情况下，解码器10至少部分地基于用户B的个人词表来定义语言模型。换句话说，由于用户A和用户B预先从事了与编程有关的谈话，因此用户A的语音被基于用户B的个人词表转换成文本。

同样，用来识别用户A与用户C之间的联系的电子邮件可能具有例如“航标”、“船尾”或“桅杆”这样的主题关键词。稍后的涉及用户A但不一定涉及用户C的包含主题关键词的视频帖子或会议被识别为与航行有关。在这种情况下，解码器10至少部分地基于用户C的个人词表来定义语言模型。换句话说，取决于解码器10所确定的语音的背景，用户A的语音被基于用户B的个人词表的文本或者用户C的个人词表而转换成文本。在一些情形中，在得出用于解码用户A的语音的语言模型时，解码器10可以使用用户B和用户C的词表这二者。当解码器10将语音转换成文本时，解码器10识别该语音的发出者以及该语音的主题，访问以前已经就该主题与该讲话人进行了通信的另一个用户的个人词表，并且基于该另一个用户的个人词表得出该讲话人的语言模型。在该示例中，不包括来自有联系的用户但不是针对共同主题的词表。

社交网络联系触发物可以是在社交网络服务中的互动。社交网络服务可以是基于简档（profile）的，其中，用户创建简档作为对他们自己的表示。简档通常包括照片、喜欢及不喜欢的事物以及其他用户产生的内容。很多简档还可以包括联系人列表，用来连接到其他用户的简档以及访问其他用户的内容。基于简档的社交网络服务聚焦在人们之间的关系上，所述的人们包括以任何理由共享兴趣或者为朋友的人群。大多数基于简档的社交网络服务是通过互联网利用URL来访问的。基于简档的社交网络的例子包括LinkedIn、Facebook、MySpace以及Bebo。可在语音识别系统中用来触发联系的互动可以是：当两个用户是朋友时，属于同一粉丝组或者属于同一兴趣组。

以类似的方式，作为微博的社交网络服务也可以用于在语音识别系统中触发联系。微博的例子包括Twitter以及Tumblr。一个用户在诸如Twitter之类的微博上订阅或“关注”另一个用户的行为可以在语音识别系统中触发联系。作为替代或者另外，在微博服务中列出的朋友关系可用来触发联系。

社交网络服务中的用户之间的联系常常转化成个人词表中的相似性。例如，两个在同一区域长大的人常常具有类似的方言和语言模式，并且很可能在社交网络服务中具有联系。即使所述两个人现在生活在世界的两边，社交网络服务中的联系也可以用来识别他们的个人词表类似的似然性。因此，一个用户的语言模型可以基于另一用户的个人词表。

诸如LinkedIn之类的还面向商业的社交网络服务也可以将具有类似个人词表的人分成组。通常，面向商业的社交网络服务允许用户维持该用户在商业中了解并信任的人的联系细节的列表，并且维持该用户自己的商业经验的简档。商业伙伴常常使用类似的词表。

这些来自电子邮件、电话通话或者社交网络服务的联系可用来产生社交图。社交图说明所述用户之间的联系。图5示出包含数个节点的社交图500。各个节点对应不同的用户或端点。社交图500可从节点501的角度来观看。与节点501的直接连接说明节点501的“朋友”或者节点501的社交图的第一级。节点501的社交图的第一级包括节点511-516。与节点501的间接连接或者节点501的社交图的第二级包括节点521、523、525和533。节点501的社交图的第三级包括节点531和533。节点533既位于节点501的社交图的第二级，又位于节点501的社交图的第三级。

解码器10可以动态地改变所使用的语言模型。例如，当转换端点20a的语音时，控制器13可以计算所转换的文本的置信分值。该置信分值提供了对通过语言模型转换的文本正确的可能性有多大的指示。置信分值可以表示为百分比或z值。另外，解码器10可以对语音水平、词语水平或者发声水平计算置信分值。

置信分值是从转换的文本是正确的概率测量出的，即使无法得知实际文本，该分值也是知道的。如果置信分值超过一预定阈值，那么语言模型不被改变。例如，解码器10可以利用只从端点20a的个人词表得出的语言模型来转换端点20a的语音。如果置信区间不超过预定阈值，那么解码器10可以切换到基于第一用户的个人词表和第二用户的个人词表的新的语言模型。

通过迭代计算置信分值并且将置信分值与预定阈值进行比较，可以添加或者从语言模型中去除其他用户的个人词表。在该学习方法中，语言模型可以包括用户社交图的个人词表的任意组合，并且可以为特定主题指定语言模型。例如，返回参考图5，用于解码来自节点501的用户关于法律话题的语音的语言模型可以包括节点511、521和516的个人词表，并且用于解码来自节点501的用户关于篮球的语音的语言模型可以包括节点525以及512的个人词表。或者，最初的语言模型可以是从所有端点20a-20f的个人词表得出或者从所有已知个人词表得出的全局语言模型。

作为找到第一充分语言模型的替代方式，可以尝试不同语言模型并且选择具有最高置信分值的模型。可以使用用来包含或者不包含其他用户的词表或者其他用户的词表的一些部分的其他标准。例如，语言模型正用于特定电话会议。该语言模型纳入了作为第一途径的电话会议的其他成员的词表、具有与电话会议相关的共享主题的其他第一级联系、以及其他标准。

图6示出语音识别系统所采用的方法的一个实施例的流程图。在块S101，收集器403监视来自包含第一用户和第二用户在内的多个用户的网络流量。在块S103，从来自网络流量的词提取词、音节、音素或音子。该提取可以由收集器403或者解码器10的控制器13来执行。在块S105，控制器13从包含在网络流量中的实际文本为多个用户中的每个用户构建个人词表。个人词表可被存储于存储器11、数据库17或者外部位置。在块S107，控制器13利用至少部分地基于第二用户的个人词表的语言模型将第一用户的音频转换成文本。该语言模型包括个人词表的文本，以及特定n元语法出现的概率和n元语法的特定序列的概率。

图7示出语音识别系统所采用的方法的另一个实施例的流程图。在块S201，收集器403监视来自包含第一用户和第二用户在内的多个用户的网络流量。在块S203，从来自网络流量的词提取n元语法。在块S205，控制器13为多个用户中的每个用户构建个人词表。在块S207，控制器13利用只基于第一用户的个人词表的语言模型将第一用户的音频转换成文本。在块S209，控制器13测试来自块S207的语言模型，并计算置信分值或置信区间。在块S211，控制器13将置信分值与预定阈值进行比较。如果置信分值超过预定阈值，那么保留来自S207的转换后的文本。如果置信分值未超过预定阈值，那么在块S213，控制器13利用基于第一用户的个人词表以及第二用户的个人词表的第二语言模型将第一用户的音频转换成文本。

在其他实施例中，初始的语言模型包括来自一个或多个其他用户的词表。来自一个或多个用户的音频的转换可以是针对给定的通话和/或可以被预先从其他通话中收集。语言模型可随通话来实时创建或者在通话结束后创建。

本文中描述的各实施例可单独使用，或者彼此结合使用。前面的详细说明仅仅是描述了本发明的许多可能实施方式中的一些。为此，本详细说明意在是说明性的，而不是限制性的。

Claims

1.一种方法，包括：

监视来自多个用户的网络流量，所述多个用户包括第一用户和第二用户；

从所述网络流量提取词；

为所述多个用户中的每个用户构建个人词表；以及

利用至少部分地基于所述第二用户的个人词表的语言模型，将所述第一用户的音频转换成文本。

2.如权利要求1所述的方法，其中所述语言模型至少部分地基于所述第一用户的个人词表。

3.如权利要求1所述的方法，还包括：

识别所述第一用户与所述第二用户之间的联系，其中所述语言模型是通过所述联系来定义的。

4.如权利要求3所述的方法，其中所述联系是根据触发而建立的，所述触发选自包括以下各项的组：从所述第一用户向所述第二用户发送的电子邮件、从所述第二用户向所述第一用户发送的电子邮件、列出所述第一用户和所述第二用户作为接收人的电子邮件、列出所述第一用户和所述第二用户中的一者作为接收人并且在电子邮件正文中列出所述第一用户和所述第二用户中的另一者的来自第三用户的电子邮件、以及在电子邮件正文中列出所述第一用户和所述第二用户的电子邮件。

5.如权利要求3所述的方法，其中所述联系是通过所述第一用户与所述第二用户之间在社交网络服务中的互动来定义的。

6.如权利要求3所述的方法，其中所述联系是通过所述第一用户与所述第二用户之间的互联网协议语音（VoIP）电话通话来定义的。

7.如权利要求1所述的方法，其中所述第一用户的音频来源于上传的视频、电话会议或视频会议。

8.如权利要求1所述的方法，还包括：

将所述文本保存在一可搜索的数据库中。

9.如权利要求1所述的方法，还包括：

基于所述文本而发展一分众分类法系统。

10.一种设备，包括：

收集器接口，被配置为监视来自包括第一用户和第二用户在内的多个用户的网络流量，并从所述网络流量提取n元语法；

存储器，被配置为存储所述多个用户中的每个用户的个人词表；以及

控制器，被配置为利用至少部分地基于所述第二用户的个人词表的语言模型，将所述第一用户的音频转换成文本。

11.如权利要求10所述的设备，其中所述语言模型至少部分地基于所述第一用户的个人词表。

12.如权利要求10所述的设备，其中所述控制器被配置成识别所述第一用户与所述第二用户之间的联系，其中所述语言模型由所述联系定义。

13.如权利要求12所述的设备，其中所述联系是根据触发而建立的，所述触发选自包括以下各项的组：从所述第一用户向所述第二用户发送的电子邮件、从所述第二用户向所述第一用户发送的电子邮件、列出所述第一用户和所述第二用户作为接收人的电子邮件、列出所述第一用户和所述第二用户中的一者作为接收人并且在电子邮件正文中列出所述第一用户和所述第二用户中的另一者的来自第三用户的电子邮件、在电子邮件正文中列出所述第一用户和所述第二用户的电子邮件、在社交网络服务中所述第一用户与所述第二用户之间的互动、以及所述第一用户与所述第二用户之间的互联网协议语音（VoIP）电话通话。

14.如权利要求10所述的设备，其中所述第一用户的音频来源于上传的视频、电话会议或视频会议。

15.如权利要求10所述的设备，还包括：

数据库，被配置为以可搜索的格式存储所述文本。

16.如权利要求10所述的设备，其中所述n元语法是具有n个词、音节、音素或者音子的序列，其中n作为整数是可配置的。

17.一种编码在一个或多个非暂时有形介质中的逻辑，所述逻辑可由一处理器来执行，并且可操作以便：

监视来自包括第一用户和第二用户的多个用户的网络流量；

从所述网络流量提取词；

从所述词为所述多个用户中的每个用户构建个人词表；

利用基于所述第一用户的个人词表的第一语言模型，将所述第一用户的音频转换成文本；

利用所述第一语言模型计算所述文本的置信分值；

将所述置信分值与预定阈值进行比较；以及

如果所述置信分值未超过所述预定阈值，则利用基于所述第一用户的个人词表以及所述第二用户的个人词表的第二语言模型，将所述第一用户的音频转换成文本。

18.如权利要求17所述的逻辑，其中所述第二用户在所述第一用户的社交图的第一级中。

19.如权利要求17所述的逻辑，还可操作以便：

识别所述第一用户与所述第二用户之间的联系，其中所述语言模型由所述联系定义。

20.如权利要求19所述的逻辑，其中所述联系由电子邮件、社交网络服务或者互联网协议语音（VoIP）电话通话定义。