CN103782340B

CN103782340B - 用于对数字声音信号进行减速的方法和设备

Info

Publication number: CN103782340B
Application number: CN201280041871.7A
Authority: CN
Inventors: C·沃尔夫
Original assignee: Alcatel Lucent SAS
Current assignee: Alcatel Lucent SAS
Priority date: 2011-08-31
Filing date: 2012-08-08
Publication date: 2016-01-20
Anticipated expiration: 2032-08-08
Also published as: JP5873927B2; US9928849B2; JP2014527648A; EP2751802A1; EP2751802B1; FR2979465B1; KR101556483B1; WO2013029944A1; CN103782340A; FR2979465A1; US20140229167A1; KR20140047722A

Abstract

用于对来自发射机的数字声音信号进行减速，以将减速的数字声音信号发送给接收机的方法，该方法包括：将从发射机接收到的数字声音信号转换为由一系列的词语构成的文本；向文本中的每个词语分配时间戳书签；识别属于在数据库中被引用的模式的词语，数据库包括将被删除的模式；限定减速的速度；基于减速的速度来调整加了时间戳的书签，使其适应减速的时间帧；对数字声音信号进行减速；删除将被删除的模式；将减速的数字声音信号发送至接收机。

Description

用于对数字声音信号进行减速的方法和设备

交叉引用

本申请基于2011年8月31日提交的编号为1157705的法国专利申请，该法国专利申请的内容通过引用整体结合至此，并在此根据35U.S.C.§119要求该法国专利申请的优先权。

背景技术

本发明涉及一种方法，该方法用于对数字声音信号进行减速，以在人和人之间（在其中至少一个人对于所说的语言不是完全流利的情况下）实现有效的实时口头交流。

最让人尴尬的经历之一是不能理解使用不同语言的说话人所说的话。经常在理解对我们而言陌生的语言时会遇到困难。但是，人类互动的本质之一是聆听、理解、并与他人进行交流。世界正变得全球一体化，与说不同语言的人进行交流的机会不断增加。举例来说，一个公司的雇员之间的语言多样性就呈现出了诸多挑战。

语言的不同之处在于它们所使用的音位，在面对不同语言时这会导致困难。口头语言省略了很多元素，并且依赖于对话所发生的环境。由于思考和说话同时发生，导致许多语法错误。最频繁出现的情况是背景噪音同所说的话混在一起。声音识别计算机系统在识别人类语言时所遇到的困难尤其可以说明这一点。所有这些障碍要求听话人努力思考，这妨碍了他或她的瞬间理解，并且可能导致他或她失去对话的头绪。

举例来说，现今需要进行全球交流的人主要使用英语进行交流。不幸的是，他们的英语技能不尽相同，通常很难理解母语人士所讲的快速英语。因此，问题是如何在保持透明互动交流的同时，减慢交谈速度，而不损失交谈的意思。

若干年前就存在对发言进行减速的方案。但是，它们的固有次生效应是使对话所花的时间变得更长。这会打断交流，使交流变得冗长，存在交流失败的风险。在应用至播放项目（电视，网络，等）时，这些方案不存在缺点，但是对于交互式交流而言则是不可接受的。如果仅将这种减速应用至对所用语言比较不熟练的人，则语言更流利的说话人不得不在获得响应之前等待他或她的问题被缓慢地传输。这使得交流中的交互变得问题重重。

发明内容

因此，本发明的一个目的是在两个对所用语言流利程度不同的说话人之间实现改善的交互式交流，而不打扰他们之中任何人的口头交流。

本发明的另一个目的是使听话人分配更多的时间去理解说话人的讲话，而口头交流的速度不受此影响。

本发明的另一个目的是提出一种方法，该方法能够以只有听他或她讲话的人才会察觉到的方式减慢讲话人讲话的速度。

本发明的目的是一种用于对来自发射机的数字声音信号进行减速，以将减速的数字声音信号发送给接收机的方法，该方法包括以下步骤；

将从发射机接收到的数字声音信号转换为文本，该文本由一系列词语构成，

相对于绝对时间参考，向文本中的每个词语分配时间戳书签，

识别属于在数据库中被引用的模式的词语，并由此推断将被删除的模式，

基于将被删除的模式来限定减速的速度，

基于减速的速度来调整时间戳书签，使其适应减速的时间帧，

对来自发射机的数字声音信号进行减速，

在从发射机接收到的数字声音信号中删除将被删除的模式，

将减速的数字声音信号发送至接收机。

在对讨论或讲话进行分析时，注意到在由语言表达的思考过程中存在各种事件，例如：

暂停；

拟声所隐藏的疑问；

通常与语言抽搐相关的无意义的“伪词语”；

重复。

所有这些事件都对交流做出贡献，因为它们形成语境，以及正在说话的人的个性的一部分。但是，它们不对向被交换的词语赋予意义做出贡献。因此，本发明的目的不是满足于大致的，甚至是错误的理解，而是清除这些事件，以释放时间，分配足够的时间以对句子进行减速而不失去其实际意思，由此保持实时交互。

根据第一方面，模式数据库从模式识别模块（block）接收新的模式。特别地，它可以是特定于说话人的重复、或语言抽搐（tic）。

根据第二方面，模式数据库接收一系列所需要的词语，这些词语被允许在构成对话的模式中存在。特别地，合适的名词，例如公司或人的名字，或者名或绰号可能频繁地进入对话中。在这种情况下，它们可能被识别为语言抽搐。自然，绝对需要避免删除它们，因为这样的话发言会变得无法理解。

根据第三方面，向每个模式分配优先级。这样就能够基于它们的优先级来选择将被删除的模式，由此能够使减速的速度适应于发射机的语速。

最开始，参考由参考时钟所提供的绝对时间，时间戳书签被分配至文本中的每个词语，接下来它们被转换为减速的时间帧，该减速的时间帧是基于已限定的减速的速度而建立的新参考。

本发明的另一个目的是提供实施上述方法的设备。特别地，本发明的目的是用于实施上述方法的设备，该设备包括：

输入，其从发射机接收数字声音信号；

转换器，其将数字声音信号转换为由一系列词语构成的文本；

时间戳处理器（timestamper），其将时间戳书签与文本的每个词语关联起来；

模式数据库，其包含被引用模式；

模式识别模块，其识别被引用模式中所包含的词语，并从它们中推断将被删除的模式；

模式过滤模块，其过滤将被删除的模式；

流量控制器，其限定减速的速度；

数字声音信号减速器，其基于减速的速度来对数字声音信号进行减速；

时间帧调整模块，其基于减速的速度来限定减速的时间帧；

时间戳书签调整模块，其对减速的时间帧中的时间戳书签进行调整；

参考时钟，其向模式识别模块，减速器，以及时间帧调整模块提供绝对参考时间；

重建模块，其从数字声音信号删除将被删除的模式，并重建数字声音信号；

输出，其恢复减速的数字声音信号。

根据一个方面，模式数据库是特定于每种语言的。这事因为表达，例如与语言抽搐相关的伪词语，不能从一种语言变换到另一种语言。

根据一个变型，可以将语言检测器添加到转换器上，这样做的特别目的是为了能够基于所使用的语言，从一个数据库切换到另一个数据库。

本发明的一个优点是它能够在两个说话人（其中一个说话人对所使用的语言并不流利）之间实现即时、互动、并且透明的交流。

附图说明

通过阅读接下来以非限制性实施例形式对实施方式进行的描述、以及附图，本发明的其它特征和优点会变得更加明显，其中

图1描绘了所述设备的一个实施方式，

图2描绘了所述方法的一个实施方式。

接下来的描述涉及一个优选实施方式，在该实施方式中，数字信号是讲话人和听话人之间交换的数字声音信号。

具体实施方式

在图1所示的本发明的实施方式中，设备1包括输入2和输出4，输入2接收与说话人的发言相对应的数字声音信号3，减速的数字声音信号5通过输出4被发送至接收说话人的被减速的发言的说话人。

输入2连接至转换器6，转换器6的作用是将数字声音信号3转换为由一系列词语构成的文本7，举例来说，词语的格式为ASCII（“美国信息交换标准码”）。

获得的文本7被发送至时间戳处理器8，时间戳处理器8向每个词语分配一个时间戳书签，时间戳书签意味着代表日期和时间（或“时间戳”）的字符序列。加时间戳是这样的机制：其包括将日期和时间同计算机数据关联。这样就能够估计从参考时刻开始过去了多少时间。时间戳书签被分配给每个词语的开头和结尾。每个词语接收时间戳书签，时间戳书签限定词语被说出时的绝对时间、以及词语在文本中所占的时长。

参考时钟9向时间戳处理器8提供绝对时间中心参考，基于该绝对时间中心参考设定用于进行时间比较的时间戳书签。

ASCII格式的加了时间戳的词语10接下来被发送至与模式数据库12相关联的模式识别模块11。

模式数据库12是用于存储被引用模式的位置，被引用模式是多组将被删除的词语。向这些模式分配限定符（qualifier）。举例来说，限定符包括词语或一组词语出现的次数（用于识别重复的词语），或者必须删除的作为语言特点但是没有意义的填充模式，包括诸如法语中“tusais”，“voila”，“d'accord”，“effectivement”等，或英语中“youknow”，“thereyougo”，“right”，“clearly”，“like”等这样的表达。

模式识别模块11接收各个加了时间戳的词语10。模式识别模块11识别属于在模式数据库12中被引用的模式的加了时间戳的词语12，以及被保留的其它词语13。模式识别模块11基于这些模式将识别的词语组合为多组词语，举例来说，以与词语在模式中出现的顺序相同的顺序来组合。特别地，模式识别模块11特别标记那些必须被删除的重复的词语。最后，模式识别模块11向数据库12中添加先前未包括的模式，从而丰富数据库12。把将被删除的新模式添加到数据库12中是模式识别模块11的一个基本功能，因为对应的词语如果未包括在被引用模式中，则可能最终被保留。接下来的目的是能够用一次操作就删除所有属于被引用模式的不需要的词语。因此，对数据库11进行丰富是该方法的一个重要步骤。

一旦完成模式识别，多组ASII格式的加了时间戳的词语10被发送至模式过滤模块14。模式过滤模块14的一个功能是把将被保留的词语13从将被删除的模式15分离开，模式15可以在模式数据库12中找到，并由模式识别模块11所识别。模式过滤模块14的输出由将被删除的模式15以及加了时间戳的将被保留的多组词语13的集合构成，并被对语言不熟悉的听话人听到。

模式识别模块11及模式过滤模块14能够访问模式数据库12，模式数据库12从模式识别模块11接收新模式，模式过滤模块14分离将被删除的模式15和将被保留在文本中的加了时间戳的词语13。

当然，模式数据库12是特定于所使用的语言的，并且包含作为该语言的特点的模式。对于每种语言而言，它们是公知的简单文本模式。这些模式能够由语言学家提供，并通过将模式打印为ASCII文本形式而存储在模式数据库12中。但是，对模式数据库12的丰富需要谨慎，因为经常重复的词语或表达可能是重要信息，例如在谈话过程中频繁重复的公司名称。通过模式识别模块11，可以在要求得到一系列在对话中允许出现的词语的同时实现对模式数据库12的自动丰富。这样的话，模式识别模块11应该能够借助于出现次数计数器对模式数据库12进行丰富。其它形式的模式识别是可以预期的，并且可能会导致数据库的内容增加。

一个有效的实施方式是向每个模式分配一个优先级：将高优先级分配给最初就出现在模式数据库12中的模式，例如，由语言学家所添加的模式，将较低的优先级分配给来自模式识别模块11的模式。根据所需要的发言减速的速度，可以保留或删除低优先级模式。

设备1还包括数字声音信号减速器16，减速器16接收数字声音信号3以及由速度控制器17发送的指令，数字声音信号3保持其进入设备1时的初始状态，指令是关于期望的减速的速度的。使用商业可购的优化减速算法来对数字声音信号3进行减速。接下来，最初接收的数字声音信号3转换为减速的数字声音信号18。

速度控制器17计算将被删除的时间，该时间对应于模式识别模块11所识别的将被删除的模式15的时长。

速度控制器17的功能是确定将要应用的减速的速度，以及使数字声音信号3的减速的速度适应于模式过滤模块14的过滤效率。这是因为一些说话人说话风格简明，这种风格使用很少的重复词语，或不需要的词语。这样的话，过滤对说话速度的降低较少，保持近乎实时的交互。因此，必须对减速进行控制。这通过在过滤后不断地把将被保留的词语13的时间戳书签和参考时钟9提供的参考时间相比较来实现。速度控制器17由此推断出时间偏移的负方向或正方向，这样可以确定出所需要的减速的速度。

减速的数字声音信号18被发送至重建模块19，基于位于每个词语的开头和结尾的时间戳书签，重建模块19删除将被删除的模式15，并且从模式过滤模块14所保留的加了时间戳的词语13来重建文本。但是，由时间戳处理器8添加到文本7中的时间戳书签对应于初始数字声音信号3被接收时的实际时间，其不同于减速的数字声音信号17的时间。

相对于参考时钟9所提供的绝对时间，时间帧调整模块20基于所期望的减速的速度来限定减速的时间帧。时间戳书签调整模块21将与每个词语关联的时间戳书签转换为与减速的时间帧相匹配。

设备1接下来在重建模块19的输出4处将减速的数字声音信号5发送给听话人，该听话人改善对说话人的理解，而说话人不会注意到这些，或者需要调整他或她正在说话的速度。

现在参考图2，其描述了借助上述设备1而实施的方法的示例性应用。说话人21说出词语21，例如“Marvellous,youknow”。这个短语以数字声音信号的形式被转换器6接收，转换器6将它转换为由词语构成的文本22，举例来说，词语22是ASCII格式的。文本的每个词语23被分隔开，并由时间戳处理器8分配一个时间戳书签。模式识别模块11识别不必要的词语24，不必要的词语24属于数据库12中引用的模式，接下来不必要的词语24被模式过滤模块14删除。

说话人20的话语21还被传输给由速度控制器17所控制的减速器16。说话人20的话语21被转换为减速的话语18。同时，时间戳书签基于减速的时间帧被时间戳书签调整模块21相应地修改。保留的词语接下来被重建模块19重新组织，减速的并且更简明的话语22被发送给听话人23。

在说话人决定在讨论过程中改变语言（例如，切换到不同于他或她的母语的语言）的情况下，有两种选择。

绝大多数情况下，使用外语会导致讲话比他或她使用母语时要差得多。因此可以基于转换器6所报告的事件来禁用减速。

或者，可以给转换器6增加一个语言检测器，以通过调整参考、数据库以及识别模式来将设备1的功能从一种语言切换为另一种语言。但是，必须要强调的是，该第二选择要求在语言检测器能够识别语言变化以及所使用的语言之前说出若干词语。在这种情况下，在说话期间发生的事件不会被校正，而是会在减速过程中保留并发送给说话人。因此，两种语言之间的过渡对说话人双方而言是完全透明的。

这种对数字信号进行减速的过程可以在其它应用中使用。由于加了时间戳，以上针对数字声音信号所描述的同样的方法还可以应用至同数字声音信号相关的数字视频信号。在某些图像通道由于难以与剩余图像结合而被删除的情况下，减速的数字视频信号可能会引起观看者不适。更方便的方法是仅仅对数字声音信号进行减速，同时确保数字声音信号和图像同步。但是，尽管更加复杂，完全可以对数字声音信号和数字视频信号二者一起减速。

通过使用同一设备描述的方法来对数字声音信号进行减速。减速的速度必须考虑一个额外参数，即（例如在对话过程中）图像与话语之间的匹配。减速的数字声音信号接下来与保持不变的数字视频信号组合在一起。

当然，本发明不限于以上所描述和描绘的实施方式，相反，在不偏离本发明的精神的情况下，本领域技术人员可以得到本发明的多种变型。特别是，在不偏离本发明的范围的情况下，可以将数字声音信号转换为ASCII、二进制、语音、或任意其它格式。

Claims

1.一种用于对来自发射机的数字声音信号进行减速以将减速的数字声音信号发送给接收机的方法，该方法包括以下步骤：

将从所述发射机接收到的数字声音信号转换为文本，该文本由一系列词语构成；

相对于绝对时间参考，向所述文本中的每个词语分配时间戳书签；

识别属于在数据库中被引用的模式的词语，并由此推断将被删除的模式；

基于所述将被删除的模式来限定减速的速度；

基于所述减速的速度来调整所述时间戳书签，使其适应减速的时间帧；

对来自所述发射机的所述数字声音信号进行减速；

在从所述发射机接收到的数字声音信号中删除将被删除的模式；

将减速的数字声音信号发送至所述接收机。

2.如权利要求1所述的方法，其中模式数据库从模式识别模块接收新模式。

3.如权利要求2所述的方法，其中所述模式数据库接收一系列所需要的词语，所述词语被允许在构成会话的模式中存在。

4.如上述权利要求1和2之一所述的方法，其中向每个模式分配优先级。

5.如上述权利要求1和2之一所述的方法，其中所述时间戳书签参考所述绝对时间被分配，接下来被转换为减速的时间帧。

6.一种用于实施如权利要求1-5中任意一项所述的方法的设备，该设备包括：

输入，该输入从发射机接收数字声音信号；

转换器，该转换器将所述数字声音信号转换为由一系列词语构成的文本；

时间戳处理器，该时间戳处理器将时间戳书签与所述文本的每个词语关联起来；

模式数据库，该模式数据库包含被引用模式；

模式识别模块，该模式识别模块识别所述被引用模式中所包含的词语，并从所述词语中推断将被删除的模式；

模式过滤模块，该模式过滤模块过滤所述将被删除的模式；

流量控制器，该流量控制器限定减速的速度；

数字声音信号减速器，该数字声音信号减速器基于所述减速的速度来对所述数字声音信号进行减速；

时间帧调整模块，该时间帧调整模块基于所述减速的速度来限定减速的时间帧；

时间戳书签调整模块，该时间戳书签调整模块对所述减速的时间帧中的时间戳书签进行调整；

参考时钟，该参考时钟向所述模式识别模块、减速减速器、以及时间帧调整模块提供绝对参考时间；

重建模块，该重建模块从所述数字声音信号删除所述将被删除的模式，并重建所述数字声音信号；

输出，该输出恢复所述减速的数字声音信号。

7.如权利要求6所述的设备，其中所述模式数据库是特定于每种语言的。

8.如权利要求6和7之一所述的设备，其中向所述转换器添加语言检测器。