CN113450790A - 电子设备的控制装置、记录介质、控制方法、电子设备 - Google Patents

电子设备的控制装置、记录介质、控制方法、电子设备 Download PDF

Info

Publication number
CN113450790A
CN113450790A CN202110308670.XA CN202110308670A CN113450790A CN 113450790 A CN113450790 A CN 113450790A CN 202110308670 A CN202110308670 A CN 202110308670A CN 113450790 A CN113450790 A CN 113450790A
Authority
CN
China
Prior art keywords
voice recognition
voice
recognition
server
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110308670.XA
Other languages
English (en)
Inventor
桑村海光
佐藤慎哉
和田浩志
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Publication of CN113450790A publication Critical patent/CN113450790A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • G06F11/0754Error or fault detection not based on redundancy by exceeding limits
    • G06F11/076Error or fault detection not based on redundancy by exceeding limits by exceeding a count or rate limit, e.g. word- or bit count limit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Telephonic Communication Services (AREA)

Abstract

声音识别装置的控制装置即电子设备的控制装置包括:声音识别部,进行已输入的声音信息的识别处理,声音识别控制部,将声音信息向服务器发送,并且对于服务器发送将用于进行声音信息的识别处理的声音识别要求,判断在由服务器声音识别结果是否发生识别错误,在识别错误超过规定次数的情况下,声音识别控制部中止发送对于服务器的声音识别要求。

Description

电子设备的控制装置、记录介质、控制方法、电子设备
技术领域
本发明的一方式是关于控制装置等,所述控制装置控制可与外部的服务器通信且输入声音信息的电子设备。
背景技术
近年开发对话装置,其应答用户发的声音。另外,也开放了对话系统,其经由通信网络使对话装置与服务器装置连接,通过服务器装置来执行声音识别。在该对话系统中,构成为对话装置使用从服务器装置接收的声音识别结果检索与应答相关信息。
日本特开2003-140691号公报公开了声音利用系统,其即使发生无识别、识别错误,也不会降低执行对话的效率,能够执行声音对话。
该声音利用系统包括声音识别处理算法不同的多个声音识别引擎,通过切换这些来变更声音识别处理算法。
发明内容
然而,如上述那样的现有技术存在如下问题:使用多个声音识别引擎,因此存在在服务器中为了对应环境噪声的处理增加的倾向而增加服务器的负载。
本发明的一方式是鉴于上述问题而完成的,其目的在于实现能够降低服务器的负载的电子设备的控制装置等。
为了解决上述课题,本发明的一方式所述涉及的控制装置是如下构成:所述控制装置控制电子设备,所述电子设备可以与外部的服务器通信且可以输入声音信息,所述控制装置的特征在于,所述控制装置包括:声音识别部,进行已输入的所述声音信息的识别处理,声音识别控制部,将所述声音信息向所述服务器发送,并且对于所述服务器发送用于进行所述声音信息的识别处理的声音识别要求,判断在由所述服务器声音识别结果是否发生识别错误,在所述识别错误超过规定次数的情况下,所述声音识别控制部中止发送对于所述服务器的所述声音识别要求。
为了解决上述课题,本发明的一方式所涉及的控制方法是如下方法:所述控制方法控制电子设备,所述电子设备可以与外部的服务器通信且可以输入声音信息,所述控制方法的特征在于,所述控制方法包括:声音识别步骤,进行已输入的所述声音信息的识别处理,声音识别控制步骤,将所述声音信息向所述服务器发送,并且对于所述服务器发送用于进行所述声音信息的识别处理的声音识别要求,判断对于由所述服务器声音识别结果是否发生识别错误,在所述声音识别控制步骤中,在所述识别错误的次数超过规定次数的情况下,中止发送对于所述服务器的所述声音识别要求。根据所述方法,能过获得与所述方式一相同的效果。
为了解决上述课题,本发明的一方式所涉及的电子设备是如下构成:所述电子设备包括:至少一个声音输入装置;至少一个通信装置,与外部的服务器进行通信;以及至少一个控制装置,所述电子设备的特征在于,所述控制装置执行:声音识别处理,进行已输入在所述声音输入装置的声音信息的识别处理,声音识别控制处理,使所述通信装置将所述声音信息向所述服务器发送,并且对于所述服务器发送用于进行所述声音信息的识别处理的声音识别要求,判断对于由所述服务器声音识别结果是否发生识别错误,在所述声音识别控制处理中,通过由所述服务器声音识别处理来判断的所述识别错误的次数超过规定次数的情况下,中止发送对于所述服务器的所述声音识别要求。
根据本发明的一方式,起到能够降低服务器的负载的效果。
附图说明
图1是表示包含本发明的一实施方式所涉及的电子设备及服务器的通信系统的构成的框图。
图2是表示所述通信系统的动作的流程的流程图。
图3是表示变形例所涉及的电子设备的动作的流程的流程图。
具体实施方式
以下,详细说明本发明的实施方式。此外,为了便于说明,对与各实施方式中示出的构件具有相同功能的构件标注相同的附图标记,适当省略其说明。
〔实施方式一〕
关于本发明的一实施方式,基于图1以及图2来进行如下说明。
(通信系统30的概要)
通信系统30是实现用户与声音识别装置(电子设备)10的声音对话的系统。具体来说,通信系统30是如下系统:在用户向声音识别装置10发声“早上好”的情况下,声音识别装置10向用户输出“早上好,今天的天气很好”的应答声音,因此实现声音对话。
通信系统30包括声音识别装置10以及云端服务器20(服务器)。声音识别装置10以及云端服务器20分别能够进行声音信息的识别处理。声音识别装置10取得用户发声的声音,进行该声音的声音信息的识别处理。
另外,声音识别装置10与云端服务器20能够通信。由此,声音识别装置10取得用户发声的声音,能够将该声音的声音信息向云端服务器20发送。云端服务器20是声音识别装置10的外部的装置,从声音识别装置10取得声音信息,在从声音识别装置10接收声音识别要求的情况下,进行已取得的声音信息的识别处理。
(声音识别装置10的主要部分结构)
图1是表示通信系统30中包含的声音识别装置10以及云端服务器20的主要部分结构的一例的框图。声音识别装置10包括声音输入装置1、控制装置2、通信装置3、声音输出装置4以及存储装置5。此外,在本实施方式中,声音输入装置1、控制装置2、通信装置3、声音输出装置4以及存储装置5的各个数量是一个,但是这些的控制块的各个可以存在多个。
声音输出装置1用于输入的装置,取得在声音识别装置10的周围发出的声音且将该声音变换成声音信息向控制装置2(声音输入控制部21)输入。该装置可以是内置在声音识别装置10的扩音器,也可以是用于输入来自声音识别装置10的外部的扩音器的声音信息的输入端子。声音输出装置4是将声音信息变换成声音且输出的装置。该装置可以是内置在声音识别装置10的扬声器,也可以是用于输出向声音识别装置10的外部的扬声器的声音信息的输出端子。
通信装置3与云端服务器20进行通信,收发各种信息。具体来说,通信装置3将声音信息从控制装置2(声音输入控制部21以及声音识别控制部22)取得,向云端服务器20发送(声音识别控制步骤、声音识别控制处理)。另外,通信装置3发送声音识别要求,所述声音识别要求对于云端服务器20要求声音信息的识别处理(声音识别控制步骤、声音识别控制处理)。进一步,通信装置3从云端服务器20接收判断结果,向控制装置2(声音识别控制部22)输出,所述判断结果是由云端服务器20的声音信息的声音识别结果,即第二声音识别结果以及识别错误的判断结果。
控制装置2统一控制声音识别装置10的功能。控制装置2包括声音输入控制部21、声音识别控制部22、声音识别部23、应答可否判断部24、应答信息生成部25、声音合成部26以及声音输出控制部27。
声音输入控制部21从声音输入装置1取得声音信息,则将该声音信息传递给声音识别控制部22以及声音识别部23。声音识别控制部22将从声音输入控制部21接收的声音信息经由通信装置3向云端服务器20发送。
另外,声音识别控制部22基于经由通信装置3从云端服务器20接收的识别错误的判断结果,判断由云端服务器20的声音信息的声音识别结果,即第二声音识别结果是否为识别错误,如不是识别错误,则将第二声音识别结果传递给应答信息生成部25。声音识别部23进行从声音输入控制部21接收的声音信息的识别处理,将其声音识别结果即第一声音识别结果传递给应答信息生成部25。
应答可否判断部24通过应答信息生成部25来判断是否能够生成应答信息。应答可否判断部24将所述判断结果传递给声音识别控制部22。
在从应答可否判断部24接收的、不能生成应答信息的要旨的判断结果(称为“应答错误”)超过规定次数的情况下,声音识别控制部22也可以停止发送对于云端服务器20的声音识别要求。
应答信息生成部25基于第一声音识别结果以及第二声音识别结果中至少一方,检索存储装置5而生成与声音信息预设相关联的应答信息。例如,想马上使声音识别装置10反应的情况等时,也可以优先使用第一声音识别结果检索应答信息。另外,为了避开进行不适当的应答发声,也可以使用第一声音识别结果以及第二声音识别结果的两者而检索应答信息。
此外,在对于已识别的声音信息,只找到一个应答信息的情况下,检索结果是相同,但是在找到了多个应答信息的情况下,依应答信息的优先度选择应答信息。另外,在已找到的多个不同的应答信息的优先度是相同的情况下,也可以随机地选择。此外,应答信息的优先度预设设定。
声音合成部26从应答信息生成部25生成的应答信息合成应答声音,传递给声音输出控制部27。声音输出控制部27控制声音识别装置10的声音输出功能。具体来说,声音输出控制部27进行如下控制:使声音输出装置4输出已合成的应答信息。
声音识别控制部22计数在所述云端服务器20中的识别错误次数。另外,在识别错误次数超过规定次数的情况下,声音识别控制部22停止发送对于云端服务器20的声音识别要求。应答信息生成部25基于已输入的第一声音识别结果,从存储装置5检索而生成应答信息。
另一方面,在识别错误的次数是规定次数以下的情况下,声音识别控制部22将第二声音识别结果向应答信息生成部25输出。应答信息生成部25基于已输入的第一声音识别结果以及第二声音识别结果中至少一方,从存储装置5检索而生成应答信息。
根据所述构成,在通过声音识别控制部22来判断的识别错误超过规定次数的情况下,声音识别控制部22中止发送对于云端服务器20的声音识别要求。由此,云端服务器20无需进行不必要的声音信息的识别处理。
另外,根据所述构成,在通过声音识别控制部22来判断的识别错误超过规定次数的情况下,应答信息生成部25基于第一声音识别结果生成应答信息。由此,能够一边降低云端服务器20的负载,一边生成应答信息。根据以上内容,能够降低云端服务器20的负载。识别错误是否超过规定次数的判断可以是错误连续超过规定次数的情况,也可以是在规定期间内超过规定次数的情况。
另外,通过声音识别控制部22来判断的识别错误是规定次数以下的情况下,应答信息生成部25基于第一声音识别结果以及第二声音识别结果中的至少一方,生成应答信息。由此,能够降低生成不适当的应答信息。例如,在第一声音识别结果不是识别错误,第二声音识别结果是识别错误的情况下,使用第一声音识别结果检索应答信息。另一方面,在第二声音识别结果不是识别错误,第一声音识别结果是识别错误的情况下,使用第二声音识别结果检索应答信息。进一步,在第一声音识别结果以及第二声音识别结果两者都不是识别错误的情况下,使用第一声音识别结果以及第二声音识别结果两者来检索应答信息。检索结果,在已找到的多个不同应答信息的情况下,基于预设设定的优先度选择或随机地选择。
存储装置5存储声音识别装置10使用的各种数据。本实施方式所涉及的存储装置5至少存储应答信息51。作为应答信息51的例子,能够列举与规定的声音信息预设相关联的情景信息。情景信息是指记载有对于已识别的话语如何反应的信息。
(云端服务器20的主要部分结构)
云端服务器20包括通信装置6以及控制装置7。通信装置6与声音识别装置10通信,收发各种信息。具体来说,通信装置6从声音识别装置10接收声音信息以及声音识别要求,向控制装置7输出。
控制装置7统一控制云端服务器20的功能。控制装置7包括声音识别部71以及识别错误判断部72。在控制装置7接收声音识别要求的情况下,声音识别部71进行已接收的声音信息的识别处理,将其结果即第二声音识别结果传递给通信装置6。另外,在控制装置7没有接收声音识别要求的情况下,声音识别部71不进行声音信息的识别处理。识别错误判断部72判断声音识别部71的识别处理的结果是否识别错误,将识别错误的判断结果传递给通信装置6。通信装置6将已接收的第二声音识别结果或识别错误的判断结果向声音识别装置10发送。此外,在本实施方式中,说明通信系统30包含一个云端服务器20,但是通信系统30中包含的云端服务器20的数量也可以是多个。
(通信系统30的动作的概要)
接下来,基于图2说明通信系统30的动作的概要。图2是表示通信系统30的动作的流程的流程图。以下,有时将“声音识别装置10”简称为“装置”或“局域”。另外,有时将“云端服务器20”简称为“云端”。
首先,在步骤S(以下,省略“步骤”)11中,装置变成活动状态,则进入S12。在此,S11中的装置变成活动状态是指装置即声音识别装置10的声音识别是工作的状态。
在S12中,声音输入装置1接收声音的输入,进入S13。具体来说,在S12中,声音输入装置1接收声音的输入,则将已接收的声音变换成声音信息,将已变换的声音信息向控制装置2发送。
在S13中,在局域以及云端进入声音识别(声音识别步骤、声音识别处理),进入S14。具体来说,来自声音输入装置1的声音信息通过声音输入控制部21来向声音识别控制部22以及声音识别部23发送。向声音识别控制部22发送的声音信息从通信装置3经由云端服务器20的通信装置6向声音识别部71发送,在该声音识别部71进行声音识别(在云端中的声音识别)。另外,此时,识别错误判断部72判断在所述的声音识别的结构是否发生识别错误。
另一方面,向声音识别部23发送的声音信息在声音识别部23进行声音识别(在局域中的声音识别)。在此,声音识别部23、声音识别部71中的声音信息的识别处理是指将声音信息变换成文本数据的处理。因此,由声音识别部23向声音信息的文本数据的变换处理的结果作为第一识别处理结果向应答信息生成部25发送。另一方面,由声音识别部71向声音信息的文本数据的变换处理的结果作为第二识别处理结果,经由通信装置6以及通信装置3从声音识别控制部22向应答信息生成部25发送。
第一识别处理结果、第二识别处理结果都包括表示声音信息是否变换成文本数据的结果以及声音信息变换成文本数据时的文本数据。
在S14中,判断在云端中的声音识别结果是否识别错误(声音识别控制步骤、声音识别控制处理)。在此,在来自识别错误判断部72的识别错误的判断结果中有包含表示不能将声音信息变换成文本数据的结果时,声音识别控制部22判断有发生识别错误,也就是说,判断声音识别结果是识别错误。然后,在S14中,在判断云端中的声音识别结果是识别错误的情况下(是),进入S21。
另一方面,在S14中,在判断云端中的声音识别结果不是识别错误的情况下(否),进入S15。在S15中,声音识别控制部22将错误计数复位,将第一声音识别结果以及第二声音识别结果中的至少一方传递给应答信息生成部2,进入S16。在此,将错误计数复位是指在识别错误的次数是一次以上的情况下,返回到“0次”次数。
在S16中,应答信息生成部25检索存储装置5的应答信息51,进入S17。在此,应答信息51是指文本数据,所述文本数据是与通过由声音识别部23(声音识别部71)声音识别处理来变换的文本数据关联的文本数据。例如,如果通过声音识别来变换的文本数据是“早上好”,则将与该“早上好”关联的“早上好,今天的天气很好”之类的文本数据作为应答信息51。此外,预设进行文本数据的关联。
在S17中,判断是否找到在S16中检索的应答信息。具体来说,应答信息生成部25从存储装置5检索与来自声音识别部23(声音识别部71)的声音信息被变换的文本数据关联的应答信息51,判断是否找到应答信息51。在此,在找到了应答信息51的情况下(是),进入S18。另一方面,在没有找到应答信息51的情况下(否),进入S19。
在S18中,进行应答发声。具体来说,在S17中找到的应答信息(文本数据)向声音合成部26发送,合成应答声音。在此,应答声音从应答信息即文本数据作为应该发声的声音数据合成。该已合成的声音数据向声音输出控制部27发送,变换成用于从声音输出装置4即扬声器输出声音的模拟数据。然后,声音输出装置4将来自声音输出控制部27的模拟数据作为应答发声的声音输出。例如,如上述所述,如果通过声音识别来变换的文本数据是“早上好”,则作为应答发声,“早上好,今天的天气很好”从声音输出装置4作为声音输出。结束由S18的应答发声,进入S19。
在S19中,确认控制装置2是否符合休眠条件,在符合休眠条件的情况下(是),进入S20。在此,通过判断声音识别装置10的声音输入装置1是否动作来确认是否符合休眠条件。例如,如果判断声音识别装置10的声音输入装置1没有动作,则判断符合休眠条件,如果判断声音识别装置10的声音输入装置1有动作,则判断没有符合休眠条件。
在S20中,控制装置2使装置的状态转变成休眠状态。在此,休眠状态是指装置即声音识别装置10的声音识别没有动作的状态。此外,关于在该装置转变成休眠状态的情况下的动作,在后述的变形例1中说明。
另一方面,在S19中,在不符合休眠条件的情况下(否),进入S31。在S31中,判断是否使云端的声音识别进行无效化。如果判断没有被进行无效化(有效)(是),进入S11,如果判断已被进行无效化(否),进入S24。
接下来,在S21中,在S14中判断声音识别结果是识别错误的情况下,递增错误次数,进入S22。在此,通过声音识别控制部22来递增错误次数。在此,递增错误次数是指将识别错误的次数对于已被计数的次数(包含0次)“+1”。
在S22中,判断错误计数是否超过规定次数N。在此,规定次数N是2以上的任意的值。规定次数N的值如果较大,则直到使后述的S23中的在云端的声音识别进行无效化的期间变长而云端服务器20的负载变大,因此,规定次数N的值优选为较小。也就是说,N优选为接近2。
在S22中,在错误计数超过规定次数N的情况下(是),进入S23。另一方面,在S22中,在错误计数是N以下的情况下(否),进入S16。
在S23中,使在云端中的声音识别进行无效化,进入S16。具体来说,声音识别控制部22停止(中止)输出声音识别要求。在此,声音识别要求是指在云端服务器20的声音识别部71中,用于执行声音识别处理的控制信号。
在S24中,等待声音输入,进入S25。在S25中,声音输入装置1接收声音(声音的输入接收),进入S26。在S26中,在局域进行声音识别,进入S28。具体来说,在S26中,声音识别装置10的声音识别部23进行声音信息的识别处理,将其结果即第一声音识别结果传递给应答信息生成部25,进入S28。
在S28中,应答信息生成部25使用第一声音识别结果来检索存储装置5的应答信息51,进入S29。
在S29中,依S28中的应答信息51的检索结果,判断是否找到应答信息51。在此,如果找到了应答信息51的情况(是),进入S30。另一方面,在S29中,如果没有找到应答信息51(否),返回到S24。
在S30中,进行应答发声。应答发声与上述的S18的应答发声相同。具体来说,在S29中找到的应答信息51(文本数据)向声音合成部26发送,合成应答声音。在此,应答声音51从应答信息即文本数据作为应该发声的声音数据合成。该已合成的声音数据向声音输出控制部27发送,变换成用于声音输出装置4即扬声器输出声音的模拟数据。然后,声音输出装置4将来自声音输出控制部27的模拟数据作为应答发声的声音输出。例如,如上述所述,如果通过声音识别来变换的文本数据是“早上好”,则作为应答发声“早上好,今天的天气很好”从声音输出装置4作为声音输出。如果结束由S30的应答声音,进入S32。
在S32中,声音识别控制部22复位错误计数,进入S33。在S33中,声音识别控制部22使云端的声音识别进行有效化,返回到S11。
〔变形例〕
以下说明本发明的变形例1。在本变形例中,进行说明声音识别装置10转变成休眠状态后的动作。在声音识别装置10是休眠状态的情况下,声音识别部23也可以不进行声音信息的识别处理,进一步使在云端服务器20的声音识别进行无效化。具体来说,声音识别控制部22对于云端服务器20,停止(中止)发送已输入的声音信息以及声音识别要求。由此,能够降低声音识别装置10的消费电力,并且降低云端服务器20的负载。
解除声音识别装置10的休眠状态也可以进行如下那样。例如,如图3的附图标记301表示的流程图那样,在声音识别装置10接收某个装置操作(例如,声音识别装置10包括的物理键的操作)的情况下(S34),可以使在云端服务器20的声音识别进行有效化(S35)。具体来说,当云端服务器20中的声音识别被进行无效化时,声音识别装置10接收某个装置操作,则声音识别控制部22对于云端服务器20进行发送已输入的声音信息以及声音识别要求。也就是说,解除停止(中止)这些的动作。由此,声音识别装置10成为活动状态即声音识别有动作的状态。也就是说,声音识别装置10不对用户施加负载,能够复原到活动状态。
然后,如图3的附图标记302表示的流程图那样,在声音识别装置10从休眠状态转变成活动状态的情况下(S36),能够使在云端服务器20的声音识别进行有效化(S37)。具体来说,当在云端服务器20中的声音识别被进行无效化时,在声音识别控制装置10从休眠状态转变成活动状态的情况下,声音识别控制部22对于云端服务器22进行发送已输入的声音信息以及声音识别要求。也就是说,解除停止(中止)这些的动作。
〔变形例二〕
作为使声音识别进行有效化或无效化的触发,能够例示以下那样的情况。例如,声音识别装置10具备计时器(未图示),到了半夜(例如,凌晨0点至凌晨3点)也可以使声音识别无效化。
另外,声音识别装置10具备GPS(Global Positioning System;未图示)接收机,当声音识别装置10位于规定的位置时,使声音识别有效化,当位于其他位置时,也可以使声音识别无效化。
另外,声音识别装置10具有加速度传感器,在检测到超过阈值的加速度的情况下,判断正在移动中,也可以使声音识别无效化。
〔实施方式二;基于软件的实现例〕
声音识别装置10的控制装置2的控制块(尤其是声音识别控制部22、声音识别部23、应答可否判断部24以及应答信息生成部25)可以通过形成于集成电路(IC芯片)等的逻辑电路(硬件)实现,也可以通过软件实现。
在后一种情况下,控制装置2具备执行实现各功能的软件即程序的命令的计算机。该计算机具备例如至少一个处理器(控制装置),并且具备至少一个记录有所述程序的计算机可读取的记录介质。并且,在所述计算机中,所述处理器通过从上述记录介质中读取上述程序并执行,达到本发明的目的。
作为所述处理器,例如能够使用CPU(Central Processing Unit)。作为所述记录介质,可使用“并非临时的有形介质”,例如除了只读存储器(Read Only Memory,ROM)等以外,还可使用带(tape)、盘(disk)、卡(card)、半导体存储器、可编程的逻辑电路等。另外,还可以包括展开所述程序的RAM(Random Access Memory)等。另外,上述程序也可以经由能传输该程序的任意的传输介质(通信网络、广播波等)供应到上述计算机。此外,本发明的一方式也能以通过电子传输将上述程序具体化的嵌入于载波的数据信号的方式实现。
〔总结〕
本发明的方式一所述涉及的控制装置(2)是如下构成:所述控制装置控制电子设备(声音识别装置10),所述电子设备可以与外部的服务器(云端服务器20)通信且可以输入声音信息,所述控制装置的特征在于,所述控制装置包括:声音识别部(23),进行已输入的所述声音信息的识别处理,声音识别控制部(22),将所述声音信息向所述服务器发送,并且对于所述服务器发送用于进行所述声音信息的识别处理的声音识别要求,判断在由所述服务器声音识别结果是否发生识别错误,在所述识别错误超过规定次数的情况下,所述声音识别控制部中止发送对于所述服务器的所述声音识别要求。
根据所述构成,在通过声音识别控制部来判断的识别错误超过规定次数的情况下,声音识别控制部中止发送对于服务器的声音识别要求。由此,服务器无需进行不必要的声音信息的识别处理。由此,能够降低服务器的负载。
本发明的方式二所述涉及的控制装置(2)在所述方式一中,可以进一步包括应答信息生成部(25),当将由所述声音识别部(23)的声音识别结果作为第一声音识别结果,将由所述服务器(云端服务器20)的声音识别结果作为第二声音识别结果时,所述应答信息生成部基于所述第一声音识别结果以及所述第二声音识别结果中的至少一方,生成与所述声音信息预设相关联的应答信息。根据所述构成,能够降低生成不适当的应答信息。
本发明的方式三所涉及的控制装置(2)在所述方式二中,在通过所述声音识别控制部(22)来判断的所述识别错误的次数超过规定次数的情况下,所述应答信息生成部(25)优选为基于所述第一声音识别结果生成所述应答信息。根据所述构成,能够一边降低服务器的负载,一边生成应答信息。
本发明的方式四所涉及的控制装置(2)在所述方式二或三中,在由所述声音识别控制部(22)来判断的所述识别错误的次数是规定次数以下的情况下,所述应答信息生成部(25)也可以基于所述第一声音识别结果以及所述第二声音识别结果中的至少一方,生成所述应答信息。根据所述构成,能够降低生成不适当的应答信息。
本发明的方式五所涉及的控制装置(2)在所述方式二或三中,在所述电子设备(声音识别装置10)是休眠状态的情况下,也可以是所述声音识别部(23)不进行所述声音信息的识别处理,所述声音识别控制部(22)对于所述服务器(云端服务器20)不发送所述声音信息以及所述声音识别要求。根据所述构成,能够降低电子设备的消费电力,并且降低服务器的负载。
本发明的方式六所涉及的控制方法是如下方法:所述控制方法控制电子设备(声音识别装置10),所述电子设备可以与外部的服务器(云端服务器20)通信且可以输入声音信息,所述控制方法的特征在于,所述控制方法包括:声音识别步骤,进行已输入的所述声音信息的识别处理,声音识别控制步骤,将所述声音信息向所述服务器发送,并且对于所述服务器发送将用于进行所述声音信息的识别处理的声音识别要求,判断对于由所述服务器声音识别结果是否发生识别错误,在所述声音识别控制步骤中,在所述识别错误的次数超过规定次数的情况下,中止发送对于所述服务器的所述声音识别要求。根据所述方法,能过获得与所述方式一相同的效果。
本发明的方式七所涉及的电子设备(声音识别装置10)是如下构成:所述电子设备包括:至少一个声音输入装置(1);至少一个通信装置(3),与外部的服务器(云端服务器20)进行通信;以及至少一个控制装置(2),所述电子设备的特征在于,所述控制装置执行:声音识别处理,进行已输入在所述声音输入装置的声音信息的识别处理,声音识别控制处理,使所述通信装置将所述声音信息向所述服务器发送,并且对于所述服务器发送将用于进行所述声音信息的识别处理的声音识别要求,判断对于由所述服务器声音识别结果是否发生识别错误,通过所述声音识别控制处理来判断的所述识别错误的次数超过规定次数的情况下,中止发送对于所述服务器的所述声音识别要求。根据所述构成,能够获得与所述方式一相同的效果。
本发明的各方式的控制装置也可以由计算机实现,在此情况下,使计算机作为所述控制装置所包括的各部分(软件要素)而进行动作,由此,通过计算机来实现所述控制装置的控制装置的控制程序、及记录有该控制程序的计算机可读取的记录介质也属于本发明的范畴。
〔附加事项〕
本发明不限于上述的各实施方式,在权利要求所示的范围中能够进行各种变更,将分别公开在不同的实施方式中的技术部件适当组合而得到的实施方式也包含在本发明的技术范围中。而且,通过将各实施方式中分别公开的技术手段组合能够形成新的技术特征。

Claims (8)

1.一种控制装置,其控制电子设备,所述电子设备可以与外部的服务器通信且可以输入声音信息,所述控制装置的特征在于,
所述控制装置包括:
声音识别部,进行已输入的所述声音信息的识别处理,
声音识别控制部,将所述声音信息向所述服务器发送,并且对于所述服务器发送用于进行所述声音信息的识别处理的声音识别要求,判断在由所述服务器声音识别结果是否发生识别错误,
在所述识别错误超过规定次数的情况下,所述声音识别控制部中止发送对于所述服务器的所述声音识别要求。
2.根据权利要求1所述的控制装置,其特征在于,
还包括应答信息生成部,
当将由所述声音识别部的声音识别结果作为第一声音识别结果,将由所述服务器的声音识别结果作为第二声音识别结果时,
所述应答信息生成部基于所述第一声音识别结果以及所述第二声音识别结果中的至少一方,生成与所述声音信息预设相关联的应答信息。
3.根据权利要求2所述的控制装置,其特征在于,
在通过所述声音识别控制部来判断的所述识别错误的次数超过规定次数的情况下,所述应答信息生成部基于所述第一声音识别结果生成所述应答信息。
4.根据权利要求2或3所述的控制装置,其特征在于,
在由所述声音识别控制部来判断的所述识别错误的次数是规定次数以下的情况下,
所述应答信息生成部基于所述第一声音识别结果以及所述第二声音识别结果中的至少一方,生成所述应答信息。
5.根据权利要求1至4中任一项所述的控制装置,其特征在于,
在所述电子设备是休眠状态的情况下,
所述声音识别部不进行所述声音信息的识别处理,
所述声音识别控制部对于所述服务器,不发送已输入的所述声音信息以及所述声音识别要求。
6.一种计算机可读取的记录介质,其存储有控制程序,所述控制程序作为权利要求1至5中任一项所述的控制装置使计算机发挥功能,所述记录介质的特征在于,
使计算机作为所述声音识别部以及所述声音识别控制部发挥功能。
7.一种电子设备的控制方法,其控制电子设备,所述电子设备可以与外部的服务器通信且可以输入声音信息,所述控制方法的特征在于,
所述控制方法包括:
声音识别步骤,进行已输入的所述声音信息的识别处理;
声音识别控制步骤,将所述声音信息向所述服务器发送,并且对于所述服务器发送用于进行所述声音信息的识别处理的声音识别要求,判断在由所述服务器声音识别结果是否发生识别错误,
在所述声音识别控制步骤中,在所述识别错误的次数超过规定次数的情况下,中止发送对于所述服务器的所述声音识别要求。
8.一电子设备,其包括:
至少一个声音输入装置;
至少一个通信装置,与外部的服务器进行通信;以及
至少一个控制装置,所述电子设备的特征在于,
所述控制装置执行:
声音识别处理,进行已输入的所述声音信息的识别处理,
声音识别控制处理,使所述通信装置将所述声音信息向所述服务器发送,并且对于所述服务器发送用于进行所述声音信息的识别处理的声音识别要求,判断对于由所述服务器声音识别结果是否发生识别错误,
通过所述声音识别控制处理来判断的所述识别错误的次数超过规定次数的情况下,中止发送对于所述服务器的所述声音识别要求。
CN202110308670.XA 2020-03-24 2021-03-23 电子设备的控制装置、记录介质、控制方法、电子设备 Pending CN113450790A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020052850A JP2021152589A (ja) 2020-03-24 2020-03-24 電子機器の制御装置、制御プログラム、制御方法、電子機器
JP2020-052850 2020-03-24

Publications (1)

Publication Number Publication Date
CN113450790A true CN113450790A (zh) 2021-09-28

Family

ID=77809265

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110308670.XA Pending CN113450790A (zh) 2020-03-24 2021-03-23 电子设备的控制装置、记录介质、控制方法、电子设备

Country Status (3)

Country Link
US (1) US20210304731A1 (zh)
JP (1) JP2021152589A (zh)
CN (1) CN113450790A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014182307A (ja) * 2013-03-19 2014-09-29 Sharp Corp 音声認識システム、および発話システム
CN104681026A (zh) * 2013-11-27 2015-06-03 夏普株式会社 语音识别终端及系统、服务器及其控制方法、非易失性存储介质
US20160275950A1 (en) * 2013-02-25 2016-09-22 Mitsubishi Electric Corporation Voice recognition system and voice recognition device
JP2018022086A (ja) * 2016-08-05 2018-02-08 シャープ株式会社 サーバ装置、制御システム、方法、情報処理端末、および制御プログラム
CN108806690A (zh) * 2013-06-19 2018-11-13 松下电器(美国)知识产权公司 声音对话方法及声音对话代理服务器
JP2019002997A (ja) * 2017-06-14 2019-01-10 トヨタ自動車株式会社 音声認識装置および音声認識方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002144982A (ja) * 2000-11-06 2002-05-22 Mazda Motor Corp 車載機器の操作方法、車載機器の操作システム及び車載機器制御装置
JP2005031758A (ja) * 2003-07-07 2005-02-03 Canon Inc 音声処理装置及び方法
JP4554285B2 (ja) * 2004-06-18 2010-09-29 トヨタ自動車株式会社 音声認識システム、音声認識方法、及び音声認識プログラム
JP6636303B2 (ja) * 2015-10-29 2020-01-29 シャープ株式会社 対話装置、対話機器、対話装置の制御方法、制御プログラム、および記録媒体
JP6614080B2 (ja) * 2016-09-16 2019-12-04 トヨタ自動車株式会社 音声対話システムおよび音声対話方法
US20200211562A1 (en) * 2017-06-22 2020-07-02 Mitsubishi Electric Corporation Voice recognition device and voice recognition method

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160275950A1 (en) * 2013-02-25 2016-09-22 Mitsubishi Electric Corporation Voice recognition system and voice recognition device
JP2014182307A (ja) * 2013-03-19 2014-09-29 Sharp Corp 音声認識システム、および発話システム
CN108806690A (zh) * 2013-06-19 2018-11-13 松下电器(美国)知识产权公司 声音对话方法及声音对话代理服务器
CN104681026A (zh) * 2013-11-27 2015-06-03 夏普株式会社 语音识别终端及系统、服务器及其控制方法、非易失性存储介质
JP2018022086A (ja) * 2016-08-05 2018-02-08 シャープ株式会社 サーバ装置、制御システム、方法、情報処理端末、および制御プログラム
JP2019002997A (ja) * 2017-06-14 2019-01-10 トヨタ自動車株式会社 音声認識装置および音声認識方法

Also Published As

Publication number Publication date
US20210304731A1 (en) 2021-09-30
JP2021152589A (ja) 2021-09-30

Similar Documents

Publication Publication Date Title
US11626117B2 (en) Contingent device actions during loss of network connectivity
US10720158B2 (en) Low power detection of a voice control activation phrase
US7689420B2 (en) Personalizing a context-free grammar using a dictation language model
US20160125883A1 (en) Speech recognition client apparatus performing local speech recognition
US20070239453A1 (en) Augmenting context-free grammars with back-off grammars for processing out-of-grammar utterances
US7689424B2 (en) Distributed speech recognition method
CN110060656B (zh) 模型管理和语音合成方法、装置和系统及存储介质
US20080255852A1 (en) Apparatuses and methods for voice command processing
CN111341315A (zh) 语音控制方法、装置、计算机设备和存储介质
US11894000B2 (en) Authenticating received speech
CN113450790A (zh) 电子设备的控制装置、记录介质、控制方法、电子设备
US10923122B1 (en) Pausing automatic speech recognition
CN108962259B (zh) 处理方法及第一电子设备
JP2016206249A (ja) 対話装置、対話システム、及び対話装置の制御方法
JP6265670B2 (ja) 情報処理装置、サーバ、および、制御プログラム
JP4058931B2 (ja) 楽音発生装置及び楽音発生処理のプログラム
JP7303091B2 (ja) 制御装置、電子機器、制御装置の制御方法および制御プログラム
WO2018207483A1 (ja) 情報処理装置、電子機器、制御方法、および制御プログラム
TWI718513B (zh) 電子裝置與語音辨識切換方法
US20200168225A1 (en) Information processing apparatus and information processing method
US20230080895A1 (en) Dynamic operation of a voice controlled device
US20190355357A1 (en) Determining device, electronic apparatus, response system, method of controlling determining device, and storage medium
US20240221743A1 (en) Voice Or Speech Recognition Using Contextual Information And User Emotion
CN113973149A (zh) 电子设备及其器件故障检测方法和介质
CN115943689A (zh) 噪声环境中的话音或语音识别

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination