CN114255757A

CN114255757A - 语音信息处理装置及语音信息处理方法

Info

Publication number: CN114255757A
Application number: CN202010999526.0A
Authority: CN
Inventors: 郑宏达
Original assignee: Alps Electric Co Ltd
Current assignee: Alps Alpine Co Ltd
Priority date: 2020-09-22
Filing date: 2020-09-22
Publication date: 2022-03-29
Also published as: EP3971891A1; US20220093099A1; JP2022051681A

Abstract

本申请提供“语音信息处理装置及语音信息处理方法”，在用于文本化的说话的中途说话发生了中断的情况下，用户不进行烦杂的操作就能够完成期望的语句的文本化。语音信息处理装置(1)在从用户受理要进行文本化的说话语音的期间即语音受理期间中顺次对用户的说话进行文本化，而在能够视为用户的说话发生了中断的情况下，自动地使在语音受理期间中用户已经说出的说话内容通过语音输出，由此，在成为能够视为用户的说话发生了中断的状况时，能够使用户认识到自身至此说出并进行了文本化的语句的内容。

Description

语音信息处理装置及语音信息处理方法

技术领域

本发明涉及语音信息处理装置及语音信息处理方法，尤其适合用于对用户的说话语音进行文本化的语音信息处理装置及语音信息处理方法。

背景技术

以往，有如下语音信息处理装置：输入用户的说话语音，对输入的语音进行文本化，并将文本作为聊天应用的消息、或者邮件发送。通过利用这种装置，用户不用手进行操作，就能够通过说话这一手段向对方发送期望的内容的语句被文本化而成的文本。

此外，在专利文献1中记载了如下技术：在电话机中正输入电话号码时发生了中断的情况下，暂时将至此处理的数据保存至非易失性存储器，在中断处理结束后使数据恢复。另外，在专利文献2中记载了如下技术：在数字广播接收系统中，在将接收到的信号记录至记录再现装置时产生了信号的缺失的情况下，生成与缺失时间量相应的缺失信息信号并记录至记录再现装置，关于缺失部分，基于生成并记录的缺失信息信号输出影像或者语音。

在先技术文献

专利文献

[专利文献1]日本特开2007－151188号公报

[专利文献2]日本特开2003－319280号公报

发明内容

发明所要解决的课题

在用户正使用上述的现有的语音信息处理装置对自身的说话语音进行文本化时，存在由于某些原因而用户在说话的中途中断说话的情况。然后，在中断了说话之后，中断的缘由解除而重新开始用于文本化的说话时，用户经常没有准确地记忆至此说出的语句的内容，无法准确地知晓应当从何处说出怎样的内容的语句。在这样的情况下，用户不得不暂时取消至此说出并进行了文本化的语句，并重新从语句的最初开始说话，这样的操作对用户而言是烦杂的。

本发明为了解决这样的问题而作出，其目的在于，在用于文本化的说话的中途说话发生了中断的情况下，用户不进行烦杂的操作就能够完成期望的语句的文本化。

用于解决课题的手段

为了解决上述的课题，在本发明中，在从用户受理要进行文本化的说话语音的期间即语音受理期间中顺次对用户的说话进行文本化，而在能够视为用户的说话发生了中断的情况下，自动地将语音受理期间中用户已经说出的说话内容通过语音输出。

发明效果

根据如上述那样构成的本发明，如果成为了能够视为用户的说话发生了中断的状况，则将至此用户已说出的说话内容自动地作为语音输出。因此，用户通过听取被输出的语音，能够掌握自身至此已说出的语句的内容，并认识到说到何处及应该从何处开始说话。由此，用户能够不取消已经文本化的语句，而从中途的语句重新开始说话。因此，根据本发明，在用于文本化的说话的中途说话发生了中断的情况下，用户不进行烦杂的操作就能够完成期望的语句的文本化。

附图说明

图1是表示本发明的第1实施方式所涉及的语音信息处理装置的构成例的框图。

图2是表示本发明的第1实施方式所涉及的语音信息处理装置的动作例的流程图。

图3是表示本发明的第2实施方式所涉及的语音信息处理装置的功能构成例的框图。

图4是表示本发明的第2实施方式所涉及的语音信息处理装置的动作例的流程图。

附图标记说明：

1、1A 语音信息处理装置

10 语音输出部

11 语音输入部

12、12A 语音信息处理部

14 相机。

具体实施方式

＜第1实施方式＞

以下，基于附图说明本发明的第1实施方式。图1是表示语音信息处理装置1的功能构成例的框图。本实施方式所涉及的语音信息处理装置1是被搭载于车辆的装置。语音信息处理装置1具有向用户提供用于多人进行收发文本消息的文本聊天的环境的功能。特别是，本实施方式所涉及的语音信息处理装置1具有如下功能：在文本聊天时，输入使用该装置的乘员(以下简称为“用户”)在语音受理期间(后述)内说出的语音，对输入的语音所表示的语句进行文本化，将文本化后的语句作为消息发送。用户通过利用该功能，不用手进行输入就能够制作在文本聊天中向对方发送的消息并进行发送。以下，将搭载了语音信息处理装置1的车辆称为“本车辆”。

如图1所示，在语音信息处理装置1上连接着麦克风2及扬声器3。麦克风2被设置在能够对本车辆中搭乘的用户的说话语音进行收音的位置处。麦克风2对语音进行收音，并输出所收音的语音的语音信号。扬声器3被设置在本车辆的车内，输入语音信号，并播放基于所输入的语音信号的语音。

如图1所示，语音信息处理装置1具备语音输出部10、语音输入部11及语音信息处理部12作为功能构成。上述各功能模块10～12由硬件、DSP(Digital Signal Processor：数字信号处理器)、软件皆可构成。例如在由软件构成的情况下，上述各功能模块10～12实际上具备计算机的CPU、RAM、ROM等而构成，通过RAM、ROM、硬盘或者半导体存储器等记录介质中存储的程序动作来实现。在功能构成之中，语音输出部10输入语音信号，基于所输入的语音信号驱动扬声器3，使扬声器3播放基于语音信号的语音。

以下，关于在动作模式为聊天模式的情况下对用户所说出的语句进行文本化并作为消息发送时的语音信息处理装置1的动作进行说明。所谓聊天模式，是用户能够利用语音信息处理装置1与期望的对方(也可以是多方)进行文本聊天的动作模式。通过用户对语音信息处理装置1的操作机构(也可以是触摸面板)的操作或者语音的指示，向聊天模式转移。此时，也恰当地进行发送消息所需的设定，如指定要进行文本聊天的对方等。

在希望利用语音信息处理装置1对期望的语句进行文本化，并作为消息发送的情况下，用户说出预定的由固定的词语构成的消息开始词，其后说出希望进行文本化的语句，再其后说出预定的由固定的词语构成的消息结束词。消息开始词作为一例是“消息开始”这样的词语，消息结束词作为一例是“消息结束”这样的词语。也就是说，在本实施方式中，从说完消息开始词起直到开始说出消息结束词为止的期间，是受理要进行文本化的语句的语音的期间。该期间相当于“语音受理期间”。

进而，在本实施方式中，用户在说出了消息结束词之后，在希望将语音受理期间内已说出的语句作为消息发送的情况下，说出消息发送词。消息发送词作为一例是“消息发送”这样的词语。与用户说出消息发送词相应地，将用户所说出的语句向对方发送。

语音输入部11在动作模式为聊天模式的期间，输入由麦克风2输出的语音信号，针对语音信号进行包含采样、量化、编码在内的模拟/数字转换处理，进行其他信号处理来生成语音数据(以下称为“输入语音数据”)，并在缓冲器13中进行缓冲。缓冲器13是在RAM等的工作区中形成的存储区域。输入语音数据是以规定的样本周期(作为一例是16kHz)采样而得到的语音波形的数据。

语音信息处理部12对缓冲器13中缓冲的输入语音数据随时进行分析，监视在输入语音数据中是否出现了消息开始词的语音波形。在本实施方式中，消息开始词的语音模式(＝消息开始词被说出时的语音波形的模式)被事先登记。也可以登记多个语音模式。语音信息处理部12随时对输入语音数据的语音波形与消息开始词所涉及的语音模式进行比较，并以规定的方法计算相似度，在相似度成为一定以上的情况下，判定为在输入语音数据中出现了消息开始词的波形。以下，将语音信息处理部12检测在输入语音数据中出现了消息开始词的波形，适宜地表现为“语音信息处理部12检测消息开始词”。

如果检测到消息开始词，则语音信息处理部12随时以缓冲器13中缓冲的输入语音数据作为对象来执行语音识别，对输入语音数据中记录的语句进行文本化，并在未图示的存储部所存储的语句数据中作为文本记述。以下将该处理称为“文本化处理”。此外，输入语音数据的文本化通过基于与自然语言处理相关的现有的技术实施语素解析、句法结构解析、意义结构解析等来恰当地进行。在一部分技术中也可以使用人工智能技术。另外，也可以构成为：语音信息处理部12与外部装置协同动作来执行文本化处理。例如，也可以构成为：与提供对语音数据进行文本化的服务的云服务器协同动作来执行文本化处理。

与文本化处理并行地，语音信息处理部12对缓冲器13中缓冲的输入语音数据随时进行分析，并监视在输入语音数据中是否出现了消息结束词的语音波形。该监视基于事先登记的消息结束词的语音模式，通过与监视是否出现了上述的消息开始词的语音波形同样的方法来执行。

如果检测出在输入语音数据中出现了消息结束词的语音波形，则语音信息处理部12结束文本化处理。其后，语音信息处理部12对缓冲器13中缓冲的输入语音数据随时进行分析，监视在输入语音数据中是否出现了消息发送词的语音波形。该监视基于事先登记的消息发送词的语音模式，通过与监视是否出现了上述的消息开始词的语音波形同样的方法来执行。

如果检测出在输入语音数据中出现了消息发送词的语音波形，则语音信息处理部12对于语句数据中记述的文本，经由网络N向规定的服务器依照协议发送消息。

进而，语音信息处理部12与文本化处理并行地，对缓冲器13中缓冲的输入语音数据随时进行分析，监视在输入语音数据中是否出现了取消词的语音波形。取消词例如是“消息取消”这样的词语。该监视基于事先登记的取消词的语音模式，通过与监视是否出现了上述的消息开始词的语音波形同样的方法来执行。如果检测出在输入语音数据中出现了取消词的语音波形，则语音信息处理部12取消文本化处理，进而删除至此在语句数据中记述的文本。其后，语音信息处理部12再次开始监视在输入语音数据中是否出现了消息开始词的语音波形。

进而，语音信息处理部12在执行文本化处理中，也就是说，在从检测出消息开始词起直到结束或者取消文本化处理为止的期间，执行以下的处理。即，判定用户未进行说话的期间是否持续了规定时间以上。如果用户未进行说话的期间持续了规定时间以上，则意味着如下含义。例如设为用户说出了“你好。”这样的语句。在该情况下意味着：在说完“你好。”之后，用户不进行说话而经过了规定时间以上。

语音信息处理部12对输入语音数据进行分析，在语音波形的声压值一旦超过第1阈值(用于判定为进行了说话的阈值)之后成为第2阈值(用于判定为未进行说话的阈值。也可以是与第1阈值相同的值)以下，且第2阈值以下的状态持续了预定的规定时间以上的情况下，判定为用户未进行说话的期间成为规定时间以上。但是，判定的方法是怎样的方法皆可。

在检测出用户未进行说话的期间持续了规定时间以上的情况下，语音信息处理部12执行以下的处理。即，语音信息处理部12使语音输出部10将在语句数据中至此记述的文本(＝文本化处理中已经生成的文本)所表示的语句通过语音输出。以下，将像这样由语音输出部10输出的语音称为“已文本化语音”，将语音信息处理部12使语音输出部10输出已文本化语音，简单地表现为“语音信息处理部12输出已文本化语音”。已文本化语音相当于权利要求书的“与在语音受理期间中用户已经说出的说话内容对应的语音”。

关于语音信息处理部12的处理进行详述，语音信息处理部12生成用于将语句数据中记述的文本所表示的语句作为语音输出的语音数据。语音数据的生成通过语音合成技术等现有技术恰当地进行。然后，语音信息处理部12通过将基于语音数据的语音信号向语音输出部10输出，使基于语音数据的语音从扬声器3播放。

其后，语音信息处理部12持续执行文本化处理，在进行了用于文本化的说话的情况下，对说话的语句进行文本化，另一方面，在用户进行了说话而其后用户未进行说话的期间持续了规定时间以上的情况下，再次输出已文本化语音。语音信息处理部12也并行地执行消息结束词及取消词的检测。

根据以上的构成，语音信息处理装置1例如按照以下的方式动作。例如设为：用户考虑说出如下语句：“现在正驱车前往。刚过A地点。到达预定时刻是13点。道路正拥堵，因此可能会晚到。快到了再联系。”。另外设为：用户在说出了消息开始词之后，在说出了“现在正驱车前往。刚过A地点。”的语句的时刻，由于某些原因而中断了说话。原因的一例是：车辆接近于交叉路口或者开始停车因此需要集中于驾驶，或者不得不进行在道路上的收费站支付费用等操作。此外，通过语音信息处理部12的文本化处理，针对用户所说出的部分进行文本化，成为在语句数据中记述了文本的状态。

在该情况下，在说完“……刚过A地点。”的语句后，如果未进行说话而经过了规定时间以上的时间，则本实施方式所涉及的语音信息处理装置1的语音信息处理部12自动地使语音输出部10输出已经生成的文本所涉及的语音。在本例中，“现在正驱车前往。刚过A地点。”的语句通过语音被输出。

作为进行以上处理的结果具有以下的效果。即，在用于文本化的说话的中途中断了说话之后，重新开始用于文本化的说话时，用户需要从刚说完的部分之后的语句新开始说话。但是，用户有可能没有准确地记忆至此说出的语句的内容，无法准确地知晓应当从何处说出怎样的内容的语句。在本例中也就是说，用户虽然应该从“到达预定时刻是……”的地方开始说话，但其自身有可能无法准确地知晓说到何处，应该从何处开始说话。在这样的情况下，虽然也能够通过说出取消词，一旦取消至此的语音输入，关于期望的语句的文本化及作为消息的发送从最初进行操作，但这样的操作对用户而言是烦杂的。

另一方面，根据本实施方式具有以下的效果。即，在未由用户进行说话的期间持续了相当的时间的情况下，能够视为用户的说话发生了中断。这是因为：通常在用户为了文本化而说出希望作为消息发送的一系列语句的情况下，在说话的中途，不会在超出所需的长时间中不说话。

另外，根据本实施方式所涉及的语音信息处理装置1，在成为了能够视为用户的说话发生了中断的状况的情况下，将至此用户已进行了文本化的语句自动地作为语音输出。因此，用户通过听取被输出的语音，能够掌握自身至此说出并进行了文本化的语句的内容。由此，用户能够不取消已经文本化的语句，而从中途的语句重新开始说话。因此，根据本实施方式，在用于文本化的说话的中途说话发生了中断的情况下，用户不进行烦杂的操作就能够完成期望的语句的文本化。

此外，用户也有可能在中断了用于文本化的说话之后，完全忘记了进行过用于文本化的说话这件事。在这样的情况下，根据本实施方式，自动地将基于用户的说话已经进行了文本化的语句作为语音输出，因此能够以此为契机使其注意到是在说话的中途(当然，也能够使其认识到已经说出的语句的内容)。

接下来，关于语音信息处理装置1所进行的语音信息处理方法，使用流程图进行说明。图2的流程图表示了聊天模式为开启时的语音信息处理部12的动作。如图2所示，语音信息处理部12对缓冲器13中缓冲的输入语音数据随时进行分析，监视在输入语音数据中是否出现了消息开始词的语音波形(步骤SA1)。在出现了的情况下(步骤SA1：是)，语音信息处理部12开始文本化处理(步骤SA2)。

接下来，语音信息处理部12监视在输入语音数据中是否出现了消息结束词的语音波形(步骤SA3)、在输入语音数据中是否出现了取消词的语音波形(步骤SA4)、以及未进行说话的期间是否成为规定时间以上(步骤SA5)。在输入语音数据中出现了消息结束词的语音波形的情况下(步骤SA3：是)，语音信息处理部12结束文本化处理(步骤SA6)，并监视在输入语音数据中是否出现了消息发送词的语音波形(步骤SA7)。在输入语音数据中出现了消息发送词的语音波形的情况下(步骤SA7：是)，语音信息处理部12对于语句数据中记述的文本发送消息(步骤SA8)。

在输入语音数据中出现了取消词的语音波形的情况下(步骤SA4：是)，语音信息处理部12取消文本化处理(步骤SA9)，使处理次序返回步骤SA1。

在未进行说话的期间成为规定时间以上的情况下(步骤SA5：是)，语音信息处理部12使语音输出部10将在语句数据中至此记述的文本(＝在文本化处理中已经生成的文本)所表示的语句通过语音输出(步骤SA10)。其后，语音信息处理部12使处理次序返回步骤SA3。

＜第1实施方式的变形例＞

在上述第1实施方式中构成为：在语音受理期间中未进行说话的期间成为规定时间以上的情况下，语音信息处理部12使语音输出部10将至此已经生成的文本所表示的语句作为语音(已文本化语音)输出。关于该点，语音信息处理部12也可以构成为：使语音输出部10将基于缓冲器13中存储的语音数据的语音(＝用户的说话的录音语音)输出，来替代已文本化语音。在该构成中替代已文本化语音输出的语音(＝用户的说话的录音语音)，相当于权利要求书的“与在语音受理期间中用户已经说出的说话内容对应的语音”。

在该情况下，例如语音信息处理部12在缓冲器13所存储的输入语音数据之中，截取相当于在语音受理期间中用户已经说出的部分的语音数据，将基于截取的语音数据的语音信号向语音输出部10输出。此外，该变形例也能够适用于后述的第2实施方式(包含第2实施方式的变形例)。

＜第2实施方式＞

接下来说明第2实施方式。图3是表示本实施方式所涉及的语音信息处理装置1A的功能构成例的框图。在以下的第2实施方式的说明中，关于与第1实施方式相同的要素附加相同标记，并省略其详细说明。此外，在本实施方式中，为了方便说明，设为使用语音信息处理装置1A的用户是驾驶员。但是，这是为了方便说明，当然驾驶员以外的乘员也可以是利用语音信息处理装置1A的用户。

通过比较图1和图3可知，本实施方式所涉及的语音信息处理装置1A具备语音信息处理部12A来替代第1实施方式所涉及的语音信息处理部12。另外，在本实施方式所涉及的语音信息处理装置1A上连接着相机14。相机14被设置在用户就座于驾驶席时能够对包含该用户的面部在内的上半身进行摄影的位置。相机14以规定周期执行摄影，将基于摄影结果的摄影图像数据向语音信息处理部12A输出。

第1实施方式所涉及的语音信息处理部12在语音受理期间中用户未进行说话的期间成为规定时间以上时，使语音输出部10输出已经进行了文本化的语句所涉及的语音(已文本化语音)。另一方面，本实施方式所涉及的语音信息处理部12A在用户的面部以经由侧窗观察外面的方式移动之后，在规定时间以上用户未进行说话的情况下，输出已文本化语音。

进行详述，语音信息处理部12A如果检测到消息开始词，则对于从相机14以规定周期输入的摄影图像数据，通过现有的识别技术对摄影图像数据中的人的上半身的图像(＝用户的上半身的图像)进行识别，并且对上半身的图像持续地进行分析，监视是否进行了在经由侧窗观察外面的情况下进行的动作(使面部朝向侧窗一侧并眺望外面的动作)。该监视基于现有的动作识别技术来进行。该监视显然也可以利用通过深度学习或其他机器学习的方法而学习的模型进行。

然后，语音信息处理部12A在检测出由用户进行了在经由侧窗观察外面的情况下进行的动作的情况下，在检测出之后进而用户未进行说话的期间持续了规定时间以上时，自动地输出已文本化语音。

根据本实施方式具有以下的效果。即，在成为能够视为用户的说话发生了中断的状况时，将至此用户进行了文本化的语句自动地作为语音输出，因此能够得到与第1实施方式同样的效果。进而，在用户经由侧窗观察外面之后，规定时间以上未进行用于文本化的说话的情况下，与仅是未说话的期间持续了规定时间以上的情况相比，能够更可靠地估计为驾驶员由于眺望外面的景色而中断了用于文本化的说话。据此，根据本实施方式，与第1实施方式相比，能够在更可靠地估计为说话中断的状况下输出已文本化语音。

接下来，关于本实施方式所涉及的语音信息处理装置1A的动作，使用图4的流程图进行说明。在图4的流程图中，关于与图2的流程图相同的处理，附加相同的步骤编号，并省略其说明。如图4所示，本实施方式所涉及的语音信息处理装置1A在步骤SB1中，执行与图2的步骤SA5的处理不同的处理。即在步骤SB1中，语音信息处理部12A监视是否在驾驶员的面部以经由侧窗观察外面的方式移动之后进而未进行说话的期间成为规定时间以上。然后，在步骤SB1中驾驶员的面部以经由侧窗观察外面的方式移动之后进而未进行说话的期间成为规定时间以上的情况下(步骤SB1：是)，处理次序前进至步骤SA1。此外，在第2实施方式中，语音信息处理部12A也可以构成为输出用户的说话的录音语音来替代已文本化语音，这如在第1实施方式的变形例中已经说明的那样。

＜第2实施方式的第1变形例＞

接下来，说明第2实施方式的第1变形例。在第2实施方式中，语音信息处理部12A在用户(驾驶员)的面部以经由侧窗观察外面的方式移动之后，规定时间以上用户未进行说话的情况下，输出已文本化语音。关于该点，本变形例所涉及的语音信息处理部12A执行以下的处理。此外，本变形例以在本车辆中设置了汽车导航装置作为前提。即，本变形例所涉及的语音信息处理部12A基于来自相机14的输入，在用户的面部以观察汽车导航装置的显示画面的方式移动之后，规定时间以上用户未进行说话的情况下，输出已文本化语音。

引用图4的流程图关于本变形例所涉及的语音信息处理装置1A的动作进行说明，在步骤SB1中，语音信息处理部12A监视是否在用户的面部以观察汽车导航装置的显示画面的方式移动之后，规定时间以上用户未进行说话。

在用户观察了汽车导航装置的显示画面之后，规定时间以上未进行用于文本化的说话的情况下，能够可靠地估计为驾驶员由于观察该显示画面而中断了用于文本化的说话。据此，根据本变形例，能够得到与第2实施方式同样的效果。

此外，在第2实施方式及本变形例中，关于如下构成的例子进行了说明：语音信息处理部12A基于相机14的摄影结果监视用户的面部是否以规定的方式移动，在以规定的方式移动之后，规定时间以上用户未进行说话的情况下，使语音输出部10输出已经生成的文本所涉及的语音。但是，该构成的例子不限于例示的情况。作为一例，也可以构成为：监视用户的面部是否以观察自身以外的其他乘员的方式移动，并执行所对应的处理，另外也可以构成为：监视用户的面部是否以观察后视镜或侧视镜等被设置于本车辆的部件的方式移动，并执行所对应的处理。另外，在第2实施方式的第1变形例中，语音信息处理部12A也可以构成为输出用户的说话的录音语音来替代已文本化语音，这如在第1实施方式的变形例中已经说明的那样。

＜第2实施方式的第2变形例＞

接下来，说明第2实施方式的第2变形例。本变形例所涉及的语音信息处理部12A基于相机14的摄影结果监视用户的面部是否成为集中于驾驶的表情，在成为该表情之后，规定时间以上用户未进行说话的情况下，输出已文本化语音。该监视基于现有的面部表情识别技术来进行。该监视显然也可以利用通过深度学习或其他机器学习的方法而学习的模型进行。此外，设想为：在本车辆刚要进入交叉路口前、正进入交叉路口的期间、正在停车场停车时、正在拥堵中的道路上行驶时等，驾驶员集中于驾驶而在表情上体现出来。

引用图4的流程图关于本变形例所涉及的语音信息处理装置1A的动作进行说明，在步骤SB1中，语音信息处理部12A监视是否在用户的面部成为集中于驾驶的表情之后，规定时间以上用户未进行说话。

在用户成为集中于驾驶的表情之后，规定时间以上未进行用于文本化的说话的情况下，能够可靠地估计为驾驶员由于集中于驾驶而中断了用于文本化的说话。因此，根据本变形例的构成，能够得到与第2实施方式同样的效果。

此外，在本变形例中关于如下构成的例子进行了说明：语音信息处理部12A基于相机14的摄影结果监视用户的面部是否成为规定的表情，在成为规定的表情之后，规定时间以上用户未进行说话的情况下，使语音输出部10输出已经生成的文本所涉及的语音。但是，该构成的例子不限于例示的情况。作为一例，也可以构成为：监视用户的面部是否成为惊讶的表情，并执行所对应的处理。另外，在第2实施方式的第2变形例中，语音信息处理部12A也可以构成为输出用户的说话的录音语音来替代已文本化语音，这如在第1实施方式的变形例中已经说明的那样。

＜第2实施方式的第3变形例＞

接下来说明第2实施方式的第3变形例。本变形例所涉及的语音信息处理部12A基于相机14的摄影结果监视用户是否开始打哈欠。语音信息处理部12A在检测出用户开始打哈欠的情况下，监视哈欠是否结束，在检测出哈欠已结束时输出已文本化语音。此外，哈欠的开始/结束的检测基于现有的图像识别技术进行。该监视显然也可以利用通过深度学习或其他机器学习的方法而学习的模型进行。

引用图4的流程图关于本变形例所涉及的语音信息处理装置1A的动作进行说明，在步骤SB1中，语音信息处理部12A监视在用户开始打哈欠之后哈欠是否结束。

在用户正打哈欠的期间，能够视为用户由于该情况而中断了用于文本化的说话。据此，根据本变形例的构成，能够得到与第2实施方式同样的效果。此外，在第2实施方式的第3变形例中，语音信息处理部12A也可以构成为输出用户的说话的录音语音来替代已文本化语音，这如在第1实施方式的变形例中已经说明的那样。

＜第2实施方式的第4变形例＞

接下来说明第2实施方式的第4变形例。本变形例所涉及的语音信息处理部12A基于相机14的摄影结果监视用户是否开始通过电话进行通话。语音信息处理部12A在检测出用户开始通话的情况下，监视通话是否结束，在检测出通话已结束时输出已文本化语音。进而，语音信息处理部12A在用户正进行通话的期间(＝从检测出通话开始起直到检测出结束为止的期间)，停止基于由语音输入部11输入的语音的语音数据的文本化。设想为：用户通过电话进行通话，是用户在车内利用自身的便携电话进行通话。

此外，对用户的通话开始/结束的检测基于现有的图像识别技术进行。该监视显然也可以利用通过深度学习或其他机器学习的方法而学习的模型进行。另外，在本变形例中，语音信息处理部12A基于相机14的摄影结果检测通话开始/结束，但进行该检测的方法不限于例示的方法。作为一例，也可以构成为将语音信息处理装置1A与便携电话以能够通信的方式连接，且在通话开始时及结束时从便携电话向语音信息处理装置1A发送规定的信号，语音信息处理部12A基于该规定的信号检测通话开始/结束。

引用图4的流程图关于本变形例所涉及的语音信息处理装置1A的动作进行说明，在步骤SB1中，语音信息处理部12A监视是否在用户开始通过电话进行通话之后通话结束。

在用户正通过电话进行通话的期间，能够视为用户由于该情况而中断了用于文本化的说话。因此，根据本变形例，能够得到与第2实施方式同样的效果。进而，在通话中由语音输入部11输入的语音不是用于文本化的语音，而是用于通过电话进行通话的语音，不应该成为文本化的对象。这样，根据本变形例，能够防止不应该成为文本化的对象的说话语音被文本化。

此外，在第4变形例中也可以构成为：在语音信息处理部12A使语音输出部10输出已文本化语音时，执行以下的处理。即，语音信息处理部12A也可以构成为：相应于已文本化语音(与说话内容对应的语音)，使语音输出部10将表示在正由用户进行通话的期间停止了对由语音输入部11输入的语音进行文本化的语句作为语音输出。例如，语音信息处理部12A执行以下的处理。即，语音信息处理部12A首先使已文本化语音输出。接下来，语音信息处理部12A使“利用电话通话中的语音不被文本化。能够输入后续内容”的内容的语句作为语音输出。作为该语音的来源的语音数据被事先准备。例示的处理不过是一例，例如，语音信息处理部12A也可以构成为：在首先使“表示在正由用户进行通话的期间停止了对由语音输入部11输入的语音进行文本化的语句”作为语音输出之后，使已文本化语音输出。

另外，在第4变形例中，语音信息处理部12A也可以构成为输出用户的说话的录音语音来替代已文本化语音，这如在第1实施方式的变形例中已经说明的那样。

另外，在第3变形例及第4变形例中关于如下构成的例子进行了说明：语音信息处理部12A对成为用户无法进行用于文本化的说话的规定的状态进行检测，在成为该规定的状态之后，在该规定的状态已解除时输出已文本化语音。但是，该构成的例子不限于例示的情况。作为一例，语音信息处理部12A也可以构成为：检测用户开始吃饭以及结束吃饭，在结束吃饭时输出已文本化语音。

以上，说明了本发明的实施方式(包含变形例)，但上述各实施方式都不过示出实施本发明时的具体化的一例，而不由此对本发明的技术范围进行限定性解释。即，本发明在不脱离其主旨或者其主要的特征的条件下能够以各种形式实施。

例如，在上述第1实施方式中，语音信息处理部12对文本的发送作为文本聊天中的消息的发送来进行，但文本的发送不限于各实施方式中例示的方式。例如，文本的发送也可以由邮件进行。另外，文本的发送不仅意味着向特定的对方发送，而是广泛包含向服务器或特定的主机装置发送文本等向外部装置传递文本的概念。例如，向消息发布网站或论坛网站依照协议发送语句的文本也被包含在文本的发送中。以上对于第2实施方式也是同样的。

另外，在第1实施方式中，语音信息处理装置1被设置于车辆。但是，语音信息处理装置1不一定必须是被设置于车辆的装置。对于第2实施方式也是同样的。即，本发明能够广泛适用于对用户的说话语音进行文本化的语音信息处理装置。

另外，在上述各实施方式中，随着用户说出消息开始词，语音受理期间开始。关于该点，也可以构成为：在用户对触摸屏或其他输入机构进行了规定的操作时、或者在能够检测手势的构成中用户进行了规定的手势时，语音受理期间开始。这对于消息结束词、消息发送词及取消词也是同样的。

Claims

1.一种语音信息处理装置，其特征在于，具备：

语音输入部，输入语音；

语音输出部，输出语音；以及

语音信息处理部，对在语音受理期间中由所述语音输入部输入的语音进行文本化，所述语音受理期间是从用户受理要进行文本化的说话语音的期间，

所述语音信息处理部在所述语音受理期间中顺次对用户的说话进行文本化，而在能够视为用户的说话发生了中断的情况下，自动地使所述语音输出部将在所述语音受理期间中用户已经说出的说话内容通过语音输出。

2.如权利要求1所述的语音信息处理装置，其特征在于，

所述语音信息处理部在所述语音受理期间中用户未进行说话的期间成为规定时间以上的情况下，使所述语音输出部输出与所述说话内容对应的语音。

3.如权利要求1所述的语音信息处理装置，其特征在于，

所述语音信息处理装置连接有对用户的面部进行摄影的相机，

所述语音信息处理部基于所述相机的摄影结果监视用户的面部是否以规定的方式移动，在以所述规定的方式移动之后，规定时间以上用户未进行说话的情况下，使所述语音输出部输出与所述说话内容对应的语音。

4.如权利要求3所述的语音信息处理装置，其特征在于，

所述语音信息处理装置被设置于车辆，

所述规定的方式是用户的面部经由侧窗观察外面的方式。

5.如权利要求3所述的语音信息处理装置，其特征在于，

所述语音信息处理装置被设置于设置有汽车导航装置的车辆，

所述规定的方式是用户的面部观察汽车导航装置的显示画面的方式。

6.如权利要求1所述的语音信息处理装置，其特征在于，

所述语音信息处理部基于所述相机的摄影结果监视用户的面部是否成为规定的表情，在成为所述规定的表情之后，规定时间以上用户未进行说话的情况下，使所述语音输出部输出与所述说话内容对应的语音。

7.如权利要求6所述的语音信息处理装置，其特征在于，

所述语音信息处理装置被设置于车辆，

所述规定的表情是用户的面部集中于驾驶的表情。

8.如权利要求1所述的语音信息处理装置，其特征在于，

所述语音信息处理部对成为用户无法进行用于文本化的说话的规定的状态进行检测，在成为该规定的状态之后该规定的状态已解除时，使所述语音输出部输出与所述说话内容对应的语音。

9.如权利要求8所述的语音信息处理装置，其特征在于，

所述语音信息处理部基于所述相机的摄影结果检测用户开始打哈欠，在开始打哈欠之后哈欠已结束时，使所述语音输出部输出与所述说话内容对应的语音。

10.如权利要求8所述的语音信息处理装置，其特征在于，

所述语音信息处理部检测用户开始通过电话进行通话，在开始通话之后通话已结束时，使所述语音输出部输出与所述说话内容对应的语音，而在正由用户进行通话的期间，停止对由所述语音输入部输入的语音进行文本化。

11.如权利要求10所述的语音信息处理装置，其特征在于，

所述语音信息处理部在使所述语音输出部输出与所述说话内容对应的语音时，相应于与所述说话内容对应的语音，使所述语音输出部将表示在正由用户进行通话的期间停止了对由所述语音输入部输入的语音进行文本化的语句作为语音输出。

12.如权利要求1至11中任一项所述的语音信息处理装置，其特征在于，

所述语音信息处理部在使所述语音输出部将所述说话内容通过语音输出时，使已经生成的文本所表示的语句作为语音输出。

13.如权利要求1至11中任一项所述的语音信息处理装置，其特征在于，

所述语音信息处理部在使所述语音输出部将所述说话内容通过语音输出时，使用户的说话的录音语音输出。

14.一种语音信息处理方法，其特征在于，包括如下步骤：

语音信息处理装置的语音信息处理部对在语音受理期间中由所述语音信息处理装置的语音输入部输入的语音进行文本化，所述语音受理期间是从用户受理要进行文本化的说话语音的期间；以及

所述语音信息处理装置的所述语音信息处理部在所述语音受理期间中顺次对用户的说话进行文本化，而在能够视为用户的说话发生了中断的情况下，自动地使所述语音信息处理装置的语音输出部将在所述语音受理期间中用户已经说出的说话内容通过语音输出。