CN113450772A

CN113450772A - 语音对话重构方法及装置

Info

Publication number: CN113450772A
Application number: CN202110255584.7A
Authority: CN
Inventors: 黄铭振; 金善泰; 池昌真
Original assignee: Yuxiang Road Co ltd
Current assignee: Yuxiang Road Co ltd
Priority date: 2020-03-10
Filing date: 2021-03-09
Publication date: 2021-09-28
Anticipated expiration: 2041-03-09
Also published as: JP2021144218A; EP3879526A1; KR102208387B1; US20210327446A1; CN113450772B

Abstract

本发明提供一种语音对话重构装置的语音对话重构方法，其中，包括：为语音对话获取对于不同说话者的语音识别数据的步骤；根据预定的划分标准，使用令牌之间的边界将获得的所述每个说话者语音识别数据划分为多个块的步骤；将划分的所述多个块与每个说话者无关地按视觉顺序排列的步骤；相对于排列的所述多个块，通过同一说话者的连续语音合并块的步骤；通过划分所述视觉顺序和说话者，以对话形式重构反映合并结果的所述多个块的步骤。

Description

语音对话重构方法及装置

技术领域

本发明涉及一种用于以对话形式为语音对话重构每个说话者的语音识别数据的方法及装置。

背景技术

在输入和处理自然语言的技术中，STT(语音转文本)是一种将语音转换为文本的语音识别技术。

这些语音识别技术根据实时特性可以分为两种，一种是一次接收并转换要转换的语音的方法，另一种是接收以预定单位(例如，小于1秒的单位)实时产生的语音并实时转换的方法。

其中，批量转换方法通常在识别整个输入语音之后立即生成结果，而实时转换方法必须定义生成语音识别结果的时间点。

定义实时转换方法的识别结果的生成时间点的主要方法有三种。第一，可以在输入特殊结束信号(例如，识别/呼叫结束按钮操作等)时生成识别结果。第二，当发生在预定长度(例如0.5秒)以上的静音等的EPD(端点检测离子)时，可以生成识别结果。第三，可以每隔预定时间生成识别结果。

其中，定义识别结果的生成时间点的第三种方法具有未结束连接的识别结果生成的始点，即可能是说话的途中的不完整特征。主要用于临时获取从某个点到目前为止识别出的结果，而不是生成正式结果，并且这种方式获得的结果称为部分结果，而不是完整的识别结果。

与基于EPD边界的识别结果不同，这种不完整的结果可以将前一生成结果包括在当前生成的结果中。例如，EPD单位识别结果生成“ABC”，“DE”和“F G”以识别“ABCDEFGH”，然而，不完整结果除非出现“A”，“AB”，“ABC”，“D”，“DE”，“F”，“FG”，“FGH”的EPD，否则不完整的结果通常包括过去生成结果。

另一方面，近年来，语音识别技术已经极大地提高了语音识别的准确性，

在识别与大量说话者的对话的情况下，存在两个或多个人同时说话的情况下重叠部分的语音识别问题或识别哪个说话者的声音的问题。

因此，在商业系统中，使用一种通过使用每个说话者的每个输入设备来识别每个说话者的语音来生成及获取每个说话者的语音识别数据的方法。

在为语音对话为每个说话者生成及获得语音识别数据的情况下，必须以对话形式来重构所获得的每个说话者的语音识别数据，用于将每个说话者的语音识别数据重构为对话形式的技术正在被不断研究。

【现有技术文献】

【专利文献】

(专利文献1)韩国公开专利公报第10-2014-0078258号(2014.06.25公开)

发明内容

要解决的技术问题

本发明是鉴于所述诸多问题而提出的，其目的在于，提供一种在将用于语音对话的每个说话者的语音识别数据重新组织为对话形式时，与实际对话流程尽可能接近的对话结构的语音对话重构方法及装置。

本发明要解决的问题不限于上述问题，通过以下描述，本领域普通技术人员将清楚地理解未提及的要解决的另一个问题。

技术方案

为了实现所述目的，本发明的根据第一观点的语音对话重构装置的语音对话重构方法，包括：为语音对话获取每个说话者的语音识别数据的步骤；根据预定的划分标准，使用令牌之间的边界将获得的所述每个说话者的语音识别数据划分为多个块的步骤；将划分的所述多个块与每个说话者无关地按视觉顺序排列的步骤；相对于排列的所述多个块，通过同一说话者的连续语音合并块的步骤；通过划分视觉顺序和说话者，以对话形式重构反映所述合并结果的多个块的步骤。

根据第二观点的语音对话重构装置，包括：用于接收语音对话的输入单元和用于处理通过所述输入单元输入的语音对话的语音识别的处理单元，所述处理单元获得用于语音对话的所述每个说话者的语音识别数据，并且根据预设的划分标准，使用令牌之间的边界将获得的所述每个说话者的语音识别数据划分为多个块，与说话者无关，以视觉顺序排列划分的所述多个块，并且相对于排列的所述多个块，通过同一说话者的连续语音来合并块，通过划分所述视觉顺序和说话者，以对话形式重构反映所述合并结果的多个块。

根据第三观点的计算机可读记录介质，作为存储计算机程序的计算机可读记录介质，其中，当所述计算机程序由处理器执行时包括用于执行所述处理器的指令，并且所述处理器执行的方法包括：为语音对话获取每个说话者的语音识别数据的步骤；根据预定的划分标准，使用令牌之间的边界将获得的所述每个说话者的语音识别数据划分为多个块的步骤；将划分的所述多个块与每个说话者无关地按视觉顺序排列的步骤；相对于排列的所述多个块，通过同一说话者的连续语音合并块的步骤；通过划分所述视觉顺序和说话者，以对话形式重构反映所述合并结果的多个块的步骤。

根据第四观点的计算机程序，作为存储在计算机可读记录介质上的计算机程序，其中，所述计算机程序由处理器执行时包括用于执行所述处理器的指令，并且所述处理器执行的方法包括：为语音对话获取每个说话者的语音识别数据的步骤；根据预定的划分标准，使用令牌之间的边界将获得的所述每个说话者的语音识别数据划分为多个块的步骤；将划分的所述多个块与每个说话者无关地按视觉顺序排列的步骤；相对于排列的所述多个块，通过同一说话者的连续语音合并块的步骤；通过划分所述视觉顺序和说话者，以对话形式重构反映所述合并结果的多个块的步骤。

有益效果

根据实施例，在将用于语音对话的每个说话者的语音识别数据重构为对话形式时，可以提供与实际对话流程尽可能接近的对话配置。

并且，由于对话是通过反映不完整的结果(Partial Result)而重构的，该不完整的结果是语音对话期间每隔预定时间生成的语音识别的结果，因此可以检查实时转换的对话，由于反映了实时语音识别的结果，因此当在屏幕上显示这种语音识别的结果时更新的对话量很小，从而由于对话的组成受到干扰或屏幕上阅读位置的变化程度相对较小，因此具有较高的可读性和识别性。

附图说明

图1是根据一实施例的语音对话重构方法及装置的框图。

图2是示出根据一实施例的语音对话重构方法的流程图。

图3是示出根据一实施例的语音对话重构方法中为每个说话者获取语音识别数据的过程的流程图。

图4是示出根据一实施例的语音对话重构装置的重构语音对话的结果的图。

具体实施方式

参考后面描述的实施例以及附图，本发明的优点和特征以及实现的方法将变得显而易见。然而，本发明不限于下面公开的实施例，而是可以以各种不同的形式来实现，仅本实施例旨在完成本发明的公开，为了将本发明的范围完全告知本发明所属领域的普通技术人员，本发明仅由权利要求的范围限定。

将简要描述本说明书中使用的术语，并且将详细描述本发明。

在考虑本发明的功能时，本发明中使用的术语是从目前可能广泛使用的通用术语中选择的，但是这可以根据本领域技术人员的意图或先例或新技术的出现而变化。另外，在某些情况下，存在申请人任意选择的术语，并且在这种情况下，将在相应发明的描述中详细描述这些术语的含义。因此，本发明中使用的术语应基于该术语的含义和本发明的整体内容而不是该术语的简单名称来定义。

当说明书的一部分“包括”某个组件时，这意味着除非另外指出，否则可以进一步包括其他组件而不是排除其他组件。

另外，说明书中使用的术语“单元”是指软件或硬件组件，例如FPGA或ASIC，并且“单元”执行某些角色。但是，“单元”并不意味着仅限于软件或硬件。“单元”可以被配置为位于可寻址存储介质中，或者可以被配置为再生一个或多个处理器。因此，作为示例，“单元”包括诸如软件组件，面向对象的软件组件，类组件和任务组件之类的组件，进程，功能，属性，过程，子例程，程序代码段，驱动程序，固件，微代码，电路，数据，数据库，数据结构，表，数组和变量。元素和“单元”中提供的功能可以组合为较少数量的元素和“单元”，或者可以进一步分离为附加的元素和“单元”。

在下文中，将参考附图详细描述本发明的实施例，以使本领域普通技术人员可以容易地实现本发明。在附图中，与描述无关的部分被省略以清楚地描述本发明。

图1是根据一实施例的语音对话重构装置的框图。

参照图1，语音对话重构装置100可以包括输入单元110和处理单元120，并且还可以包括输出单元130及/或存储单元140。处理单元120可包括用于每个说话者的数据处理单元121、块划分单元122、块对齐单元123、块合并单元124以及对话重构单元125。

输入单元110接收语音对话。输入单元110可以根据每个说话者的语音对话来分离并接收语音数据。例如，输入单元110可以包括与一对一说话者的数量相对应的麦克风数量。

处理单元120处理通过输入单元110输入的语音对话的语音识别。例如，处理单元120可以包括如微处理器的计算操作装置。

处理单元120的每个说话者的数据处理单元121获取用于语音对话的每个说话者的语音识别数据。例如，每个说话者的数据处理单元121可以包括自动语音识别(ASR)，在针对通过输入单元110接收的每个说话者的语音数据进行预处理之后，ASR可以在去除噪声之后提取字符串。当为每个说话者获得语音识别数据时，每个说话者的数据处理单元121可以应用多个识别结果生成时间。例如，每个说话者的数据处理单元121可以在用于语音对话的EPD(端点检测)单元中为每个说话者生成第一识别结果，并且可以在每个预设时间为每个说话者生成第二识别结果。例如，可以在产生每个说话者的第一识别结果的EPD的最后一次出现之后，生成每个说话者的第二识别结果。另外，每个说话者的数据处理单元121不重叠地收集每个说话者的第一识别结果和每个说话者的第二识别结果，以作为比率为每个说话者生成语音识别数据。每个说话者的数据处理单元121可以在获取每个说话者的语音识别数据时应用单个识别结果生成时间点。例如，可以生成每个说话者的第一识别结果和每个说话者的第二识别结果中的任一个。

处理单元120的块划分单元122根据预设的划分标准，使用令牌之间的边界将由数据处理单元121针对每个说话者获得的语音识别数据划分为多个块。例如，预设划分标准可以是预定时间段以上的静默时间段，或者是具有先前令牌的形态特征。

处理单元120的块对齐单元123以视觉顺序布置由块划分单元122划分的多个块，而与说话者无关。

处理单元120的块合并单元124相对于由块对齐单元123对齐的多个块合并由同一说话者的连续语音产生的块。

处理单元120的对话重构单元125通过划分视觉顺序和说话者，以对话形式重构反映块合并单元124的合并结果的多个块。

输出单元130输出处理单元120的处理结果。例如，输出单元130可以包括输出接口，从处理单元120提供的转换后的数据可以在处理单元120的控制下输出到连接到输出接口的另一电子设备。另外，输出单元130可以包括网卡，并且可以在处理单元120的控制下通过网络发送从处理单元120提供的转换后的数据。另外，输出单元130可以包括能够在屏幕上显示处理单元120的处理结果的显示装置，可以由说话者区分由对话重构单元125以对话形式重构的语音对话的语音识别数据，并按时间顺序显示在屏幕上。

存储单元140可以存储用于语音对话重构装置100的操作系统程序，并且可以存储处理单元120的处理结果。例如，存储单元140是硬盘，软盘及磁带之类的磁性介质，CD-ROM和DVD之类的光学记录，如光学软盘之类的磁光介质，如专门配置为存储和执行程序指令(例如闪存)的硬件设备的计算机可读记录介质。

图2是示出根据一实施例的语音对话重构方法的流程图，图3是示出根据一实施例的语音对话重构方法中为每个说话者获取语音识别数据的过程的流程图，图4是示出根据一实施例的语音对话重构装置的重构语音对话的结果的图。

在下文中，将参照图1至图4详细描述根据本发明的一实施例的由语音对话重构装置100执行的语音对话重构方法。

首先，输入单元110根据针对每个说话者的语音对话来分离并输入语音数据，并将针对每个说话者的接收到的语音数据提供给处理单元120。

处理单元120的每个说话者的数据处理单元121获取用于语音对话的每个说话者的语音识别数据。例如，每个说话者数据处理单元121中包括的ASR通过针对通过输入单元110接收的每个说话者的语音数据的预处理来去除噪声，然后提取字符串，从而获得由字符串组成的针对每个说话者的语音识别数据S210。

此时，当为每个说话者获得语音识别数据时，每个说话者的数据处理单元121应用多个识别结果生成时间。每个说话者的数据处理单元121以语音对话的EPD单元为每个说话者生成第一识别结果。同时，在最后一次生成为每个说话者生成第一识别结果的EPD之后，每个说话者的数据处理单元121在每个预设时间为每个说话者生成第二识别结果S211。并且，每个说话者的数据处理单元121不重叠地收集每个说话者的第一识别结果和每个说话者的第二识别结果，最后，生成每个说话者的语音识别数据S212。

以此方式，稍后将由对话重构单元125以对话形式来重构由每个说话者的数据处理单元121针对每个说话者获取的针对每个说话者的语音识别数据。然而，与语音不同，在重新组织对话的文本形式的情况下，假设第二个说话者的话语在第一个说话者的发言中间短暂出现时，假设以文本形式表达这种情况时，必须决定在哪个部分切断说话。例如，可以在整个对话中基于静音部分来切断话语，然后收集说话者的所有数据并按时间顺序对其进行排序，在这种情况下，当基于EPD生成另外识别的文本时，文本的长度立即被添加到屏幕，从而导致用户的阅读位置受到干扰或者对话的组成被改变的问题。另外，此时，若不能自然地进行对话的组成单元，则对话的上下文被破坏。例如，当第一个说话者不断说话的期间在中间第二个说话者说“是”时，“是”无法在实际上下文中表达，可能会附在第一个说话者长时间连续说话的结尾。此时，若添加实时，则即使说话者正在说话并且也在进行识别，直到发生EPD之前，无法在屏幕上检查识别结果。而是，即使第一说话者先说话，第二说话者的话语又简短又首先结束，因此，在屏幕上存在没有第一说话者的语音，而仅显示第二说话者的语音的情况。为了应对这些各种情况，根据一实施例的语音对话重构装置100经过由块划分单元122的进行的分割过程，由块对齐单元123进行的对准过程以及由块合并单元124进行的合并过程。分割过程和对准过程是在单词之间插入另一个说话者的单词以适合原始对话流程，而合并过程则可以防止构成对话的句子由于要插入而进行分割而被切得太短。

处理单元120的块划分单元122根据数据处理单元121针对每个说话者获得的针对每个说话者的语音识别数据的预设划分标准，使用令牌(例如，单词/语句/词素)之间的边界被分为多个块，并提供给处理单元120的块对齐单元122。例如，预设的划分标准可以是预定时间以上的的静默时段，或者是先前令牌组的形态特征(例如，语句之间)，块划分单元122以预定时间以上的静默时段或与前一个令牌的形态特征为分割基准，将每个说话者的语音识别数据分割为多个块S220。

随后，处理单元120的块对齐单元123以视觉顺序排列由块划分单元122划分的多个块，而与说话者无关，并且提供给处理单元120的块合并单元124。例如，块对齐单元123可以基于每个块的开始时间来布置，或者可以基于每个块的中间时间来布置S230。

然后，处理单元120的块合并单元124相对于由块对齐单元123布置的多个块合并同一说话者的连续语音引起的块，将反应块合并的结果的每个说话者的语音识别数据提供给对话重构单元125。例如，块合并单元124通过使用在与先前块之间存在的预定时间以下的静音区间或与先前块的语法特性(例如，当前一个块是末尾时)来确定同一说话者的连续语音S240。

接下来，处理单元120的对话重构单元125通过划分视觉顺序和说话者，以对话形式重构反映块合并单元124的合并结果的多个块，并且将重构的语音识别数据提供给输出单元130S250。

输出单元130输出处理单元120的处理结果。例如，输出单元130可以在处理单元120的控制下将从处理单元120提供的转换后的数据输出到连接到输出接口的另一电子设备。可选地，输出单元130可以在处理单元120的控制下通过网络发送从处理单元120提供的转换后的数据。另外，如图4所示，输出单元130可以在显示装置的屏幕上显示处理单元120的处理结果。如图4所示，输出单元130可以区分由对话重构单元125以对话形式重构的语音对话的语音识别数据，并且根据时间顺序在屏幕上显示语音识别数据。当重构的语音识别数据被更新并输出时，输出单元130可以更新并输出反映在步骤S211中生成的每个说话者的第一识别结果的屏幕。即，在步骤S250中，对话重构单元125将反映每个说话者的第一识别结果的语音识别数据提供给输出单元130S260。

同时，可以在计算机可读记录介质中实现根据上述实施例的语音对话重构方法中包括的每个步骤，该计算机可读记录介质记录包括用于执行这些步骤的指令的计算机程序。

另外，根据上述一实施例的语音对话重构方法中包括的每个步骤可以以存储在计算机可读记录介质中的计算机程序的形式来实现，该计算机可读记录介质被编程为包括用于执行该步骤的指令。

到目前为止，根据本发明的实施例，在以对话形式为每个说话者重构语音识别数据时，可以提供尽可能接近实际对话流程的对话结构。

并且，由于通过反映语音对话期间每隔预定时间生成的语音识别的结果不完整的结果来重构对话，因此可以检查实时转换的对话，由于反映了实时语音识别的结果，因此在这些语音识别结果显示在屏幕上时一次更新的对话量很小，并且对话的构图受到干扰或屏幕上读取位置的变化程度相对较小，提供了较高的可读性和识别性。

可以通过计算机程序指令来执行本发明所附的每个流程图中的每个步骤的组合。这些计算机程序指令可以安装在通用计算机，专用计算机或其他可编程数据处理设备的处理器上，因此，由计算机或其他可编程数据处理设备的处理器执行的那些指令将创建一种手段，以执行流程图的每个步骤中所述的功能。这些计算机程序指令还可以将定向到计算机或其他可编程数据处理设备存储在计算机可用或计算机可读的记录介质上，以特定方式实现功能，因此，还可以生产一种包含指令装置的制品，该指令装置用于利用存储在计算机可用或计算机可读记录介质上的指令来执行流程图的每个步骤中所述的功能。计算机程序指令也可以安装在计算机或其他可编程数据处理设备上，因此，在计算机或其他可编程数据处理设备上执行一系列操作步骤，用于创建计算机执行的过程以执行计算机或其他可编程数据处理设备的指令还可以提供用于执行流程图的每个步骤中描述的功能的步骤。

另外，每一步骤可代表包含用于执行指定的逻辑功能的一个或多个可执行指令的模块，代码段或代码部分。另外，应当注意，在一些替代实施例中，步骤中提到的功能可以不按顺序发生。例如，实际上连续显示的两个步骤实际上可以基本同时执行，或者有时取决于所讨论的功能，这些步骤有时可以以相反的顺序执行。

上面的描述仅是对本发明技术思想的说明，并且本发明所属领域的普通技术人员将能够做出各种修改和改变而不脱离本发明的实质。因此，在本发明中公开的实施例并非旨在限制本发明的技术思想，而是用于解释该技术思想，并且本发明的技术思想的范围不受这些实施例的限制。本发明的保护范围应该由所附的权利要求书来解释，并且与之均等的范围内的所有技术思想都应被解释为包括在本发明的范围内。

图中

100：语音对话重构装置，110：输入单元

120：处理单元，121：每个说话者的数据处理单元

122：块划分单元，123：块对齐单元

124：块合并单元，125：对话重构单元

130：输出单元，140：存储单元

Claims

1.一种语音对话重构方法，作为语音对话重构装置的语音对话重构方法，其中，包括：

为语音对话获取对于不同说话者的多个每个说话者语音识别数据的步骤；

根据预定的划分标准，使用令牌之间的边界将多个所述每个说话者语音识别数据划分为多个块的步骤；

将划分的所述多个块与每个说话者无关地按视觉顺序排列多个所述每个说话者语音识别数据的步骤；

相对于排列的所述多个块，通过同一说话者的连续语音合并块的步骤；

通过划分所述视觉顺序和说话者，以对话形式重构反映合并结果的所述多个块的步骤。

2.根据权利要求1所述的语音对话重构方法，其中，获得所述每个说话者语音识别数据的步骤包括：

获取以EPD(端点检测离子)单元产生的每个说话者的第一识别结果和每个预设时间产生的每个说话者的第二识别结果的步骤；

通过将所述每个说话者的第一识别结果和所述每个说话者的第二识别结果组合在一起而不重叠或重复，生成所述每个说话者语音识别数据的步骤。

3.根据权利要求2所述的语音对话重构方法，其中，在最后的EPD发生之后，生成所述每个说话者的第二识别结果。

4.根据权利要求1所述的语音对话重构方法，其中，所述预设划分标准是预定时间段以上的静音时间段，或者先前令牌的形态特征。

5.根据权利要求1所述的语音对话重构方法，其中，在所述合并步骤中，根据预定时间以下的静音时间段，或先前令牌的语句特征判断所述同一说话者的连续语音。

6.根据权利要求2所述的语音对话重构方法，其中，还包括在屏幕上输出以所述对话形式重构的语音识别数据的步骤，当所述屏幕被更新时，针对所述每个说话者的语音识别数据被集中地更新，或者执行反映所述每个说话者的第一识别结果。

7.一种语音对话重构装置，其中，包括：用于接收语音对话的输入单元和用于处理通过所述输入单元输入的所述语音对话的语音识别的处理单元，

所述处理单元获得用于所述语音对话的不同说话者的多个每个说话者的语音识别数据，并且根据预设的划分标准，使用令牌之间的边界将多个所述每个说话者的语音识别数据划分为多个块，并且相对于多个所述每个说话者的语音识别数据与说话者无关，以视觉顺序排列划分的所述多个块，并且相对于排列的所述多个块，通过同一说话者的连续语音来合并块，通过划分所述视觉顺序和说话者，以对话形式重构反映所述合并结果的多个块。

8.根据权利要求7所述的语音对话重构装置，其中，相对于所述语音对话获取以EPD(端点检测离子)单元产生的每个说话者的第一识别结果和每个预设时间产生的每个说话者的第二识别结果，通过将所述每个说话者的第一识别结果和所述每个说话者的第二识别结果组合在一起而不重叠或重复，生成所述每个说话者语音识别数据。

9.一种计算机可读记录介质，作为存储计算机程序的计算机可读记录介质，其中，当所述计算机程序由处理器执行时包括用于执行所述处理器的指令，并且所述处理器执行的方法包括：为语音对话获取不同说话者的多个每个说话者的语音识别数据的步骤；根据预设的划分标准，使用令牌之间的边界将多个所述每个说话者的语音识别数据划分为多个块的步骤；相对于多个所述每个说话者的语音识别数据与说话者无关，以视觉顺序排列划分的所述多个块的步骤；相对于排列的所述多个块，通过同一说话者的连续语音来合并块的步骤；通过划分所述视觉顺序和说话者，以对话形式重构反映所述合并结果的多个块的步骤。

10.一种计算机程序，作为存储在计算机可读记录介质上的计算机程序，其中，所述计算机程序由处理器执行时包括用于执行所述处理器的指令，并且所述处理器执行的方法包括：为语音对话获取不同说话者的多个每个说话者的语音识别数据的步骤；根据预设的划分标准，使用令牌之间的边界将多个所述每个说话者的语音识别数据划分为多个块的步骤；相对于多个所述每个说话者的语音识别数据与说话者无关，以视觉顺序排列划分的所述多个块的步骤；相对于排列的所述多个块，通过同一说话者的连续语音来合并块的步骤；通过划分所述视觉顺序和说话者，以对话形式重构反映所述合并结果的多个块的步骤。