JP7216621B2 - Electronic devices, programs and speech recognition methods - Google Patents

Electronic devices, programs and speech recognition methods Download PDF

Info

Publication number
JP7216621B2
JP7216621B2 JP2019129339A JP2019129339A JP7216621B2 JP 7216621 B2 JP7216621 B2 JP 7216621B2 JP 2019129339 A JP2019129339 A JP 2019129339A JP 2019129339 A JP2019129339 A JP 2019129339A JP 7216621 B2 JP7216621 B2 JP 7216621B2
Authority
JP
Japan
Prior art keywords
sound
unit
voice
speech
speech recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019129339A
Other languages
Japanese (ja)
Other versions
JP2021015180A (en
Inventor
丈次 山下
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
TVS Regza Corp
Original Assignee
TVS Regza Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by TVS Regza Corp filed Critical TVS Regza Corp
Priority to JP2019129339A priority Critical patent/JP7216621B2/en
Priority to CN202080002706.5A priority patent/CN112243588B/en
Priority to PCT/CN2020/101150 priority patent/WO2021004511A1/en
Publication of JP2021015180A publication Critical patent/JP2021015180A/en
Application granted granted Critical
Publication of JP7216621B2 publication Critical patent/JP7216621B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42203Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] sound input device, e.g. microphone
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42204User interfaces specially adapted for controlling a client device through a remote control device; Remote control devices therefor
    • H04N21/42206User interfaces specially adapted for controlling a client device through a remote control device; Remote control devices therefor characterized by hardware details
    • H04N21/42222Additional components integrated in the remote control device, e.g. timer, speaker, sensors for detecting position, direction or movement of the remote control, microphone or battery charging device
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/432Content retrieval operation from a local storage medium, e.g. hard-disk
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Databases & Information Systems (AREA)
  • Selective Calling Equipment (AREA)

Description

本発明の実施形態は、電子機器、プログラムおよび音声認識方法に関する。 TECHNICAL FIELD Embodiments of the present invention relate to an electronic device, a program, and a speech recognition method.

近年、音声による機器の操作や情報、コンテンツの検索を行うサービス(AIによる音声対話型のコンテンツ検索サービス)のニーズが高まりつつある。この検索サービスは、機器に話しかけるだけで、リモートコントローラ(以下「リモコン」と称す)を手にすることなく操作や情報検索ができることの利便性から、急速に普及しつつある。 2. Description of the Related Art In recent years, there is a growing need for a service for operating devices and searching for information and content by voice (speech-interactive content search service using AI). This search service is rapidly spreading due to the convenience of being able to operate and search for information simply by speaking to a device without holding a remote controller (hereinafter referred to as "remote controller").

操作の対象の機器は、話者が話しかけた機器のみならず家庭内のあらゆる機器が対象となるため、今後、こういった検索サービスを提供する事業者や機器製造メーカが増加することが予想される。 Since the devices that can be operated are not limited to devices that the speaker talks to, but all devices in the home, it is expected that the number of business operators and device manufacturers that provide such search services will increase in the future. be.

一方で、テレビジョン装置(以下「TV」と称す)やパーソナルコンピュータ(以下「PC」と称す)のような情報を表示できるデバイスを備える機器に対して、機器から離れた位置で指示を与える場合、リモコン操作が基本となるが、コンテンツの検索や文字入力等を行う際にリモコンを集音手段として活用することが考えられる。 On the other hand, when giving an instruction to a device equipped with a device capable of displaying information such as a television set (hereinafter referred to as "TV") or a personal computer (hereinafter referred to as "PC") from a position away from the device. , remote control operation is the basis, but it is conceivable to utilize the remote control as sound collecting means when searching for contents, inputting characters, or the like.

TVで集音した音声を活用する具体的な例としては、例えばリモコンにマイクを内蔵し、話者が発する声をマイクで集音しリモコンから無線通信によりTV本体に伝達して処理(音声認識)することや、TV本体にマイクを内蔵してユーザが発する声をTV本体が直接集音して処理すること等が考えられる。 As a specific example of utilizing the sound collected by the TV, for example, a microphone is built into the remote control, and the voice uttered by the speaker is collected by the microphone, transmitted from the remote control to the TV main body by wireless communication, and processed (speech recognition ), or that a microphone is built into the TV body so that the TV body directly collects and processes the user's voice.

前者のリモコンにマイクを内蔵する例は、マイクと話者の距離が近いため、高品質な音声を収集し、収集した音声を高い精度で認識処理できる一方で、話者がリモコンを手で持つ必要があるというデメリットがある。 In the former example, in which a microphone is built into the remote control, the distance between the microphone and the speaker is close, so high-quality voice can be collected and the collected voice can be recognized and processed with high accuracy, while the speaker holds the remote control by hand. The downside is that it is necessary.

また、後者のTV本体にマイクを内蔵する例は、前者と逆で、話者はリモコンを手にすることなく発話できるものの、マイクと話者との距離が離れるため、マイクで収集する音声の品質として高いものが望めない。 In the latter example, in which a microphone is built into the TV main body, the speaker can speak without holding the remote control, but the distance between the microphone and the speaker is large, so the voice collected by the microphone is difficult to control. I don't expect high quality.

そこで、双方のよいところ、つまりリモコンとTV本体の双方にマイクを設けることが考えられる。 Therefore, it is conceivable to provide microphones on both the remote controller and the TV main body, which is good for both.

特開2006-319797号公報JP 2006-319797 A

しかしながら、リモコン(外部端末)とTV本体(電子機器)の両方にマイク(集音部)を設ける場合、それぞれのマイクで収集した音声がTV本体に同時に入力されてしまうケース(音声の衝突)が発生し、収集した音声をうまく活用できないという問題がある。 However, if both the remote control (external terminal) and the TV main unit (electronic device) are equipped with microphones (sound collectors), there are cases where the sounds collected by each microphone are input to the TV main unit at the same time (sound collision). There is a problem that it occurs and the collected voice cannot be used well.

例えば話者がリモコンを持っているときは、リモコンのマイクで収集した音声を利用した方が良く、話者がリモコンを持ってないときは、TV本体側のマイクで収集した音声を利用した方が良い。このように話者の状況によってマイクの使い分けが必要になる。 For example, when the speaker has a remote control, it is better to use the sound collected by the microphone of the remote control, and when the speaker does not have the remote control, it is better to use the sound collected by the microphone on the TV side. is good. In this way, it is necessary to use different microphones depending on the situation of the speaker.

本発明が解決しようとする課題は、外部端末と電子機器の両方に集音部を設けて話者の指示操作性を高めつつ、話者の状況によって複数の集音部を使い分け、それぞれの集音部で収集した音声を活用することができる電子機器、プログラムおよび音声認識方法を提供することにある。 The problem to be solved by the present invention is to provide sound collectors in both the external terminal and the electronic device to improve the operability of the speaker's instruction, and use a plurality of sound collectors according to the situation of the speaker. To provide an electronic device, a program, and a speech recognition method capable of utilizing speech collected by a sound part.

実施形態の電子機器は、自己の周囲の第1音声を収集する第1集音部を有する外部端末と無線接続または有線接続される電子機器であって、第1音声取得部、第2集音部、第2音声取得部、音声認識部、制御部を備える。第1音声取得部は外部端末の前記第1集音部が収集した第1音声を前記外部端末から取得する。第2集音部は自己の周囲の第2音声を収集する。第2音声取得部は第2集音部により収集された第2音声を取得する。音声認識部は入力される音声を音声認識処理する。制御部は第1音声および第2音声のうち予め設定された条件に合致する音声を音声認識部へ入力し音声認識処理させる。 An electronic device according to an embodiment is an electronic device wirelessly or wiredly connected to an external terminal having a first sound collecting unit that collects a first sound around the device, and comprises a first sound acquiring unit and a second sound collecting unit. section, a second speech acquisition section, a speech recognition section, and a control section. The first sound acquisition unit acquires the first sound collected by the first sound collection unit of the external terminal from the external terminal. The second sound collector collects a second sound around itself. The second sound acquisition unit acquires the second sound collected by the second sound collection unit. The speech recognition unit performs speech recognition processing on input speech. The control unit inputs the voice that matches the preset condition among the first voice and the second voice to the voice recognition unit and causes the voice recognition unit to perform voice recognition processing.

実施形態の記録再生装置の構成を示す図である。It is a figure which shows the structure of the recording/reproducing apparatus of embodiment. 記録再生装置の第1動作例を示すフローチャートである。4 is a flowchart showing a first operation example of the recording/reproducing device; 記録再生装置の第2動作例を示すフローチャートである。9 is a flowchart showing a second operation example of the recording/reproducing device; 記録再生装置の第3動作例を示すフローチャートである。10 is a flowchart showing a third operation example of the recording/reproducing device;

以下、図面を参照して、実施形態を詳細に説明する。
図1は電子機器に係る一つの実施の形態の記録再生装置1の概略構成の一例を示す図である。本実施形態では、映像表示部14を備えた記録再生装置1について説明するが、映像表示部14は必須構成ではない。電子機器が例えばデジタルレコーダ又はコンピュータの本体等の場合には、電子機器は、映像表示部14を備えず、各種ケーブル等を介して、外部の映像表示部(ディスプレイ)に対して表示情報を出力する。この他、電子機器としては、例えばエアコン、冷蔵庫等であってもよい。
Hereinafter, embodiments will be described in detail with reference to the drawings.
FIG. 1 is a diagram showing an example of a schematic configuration of a recording/reproducing apparatus 1 according to one embodiment of an electronic device. In this embodiment, the recording/reproducing apparatus 1 including the image display section 14 will be described, but the image display section 14 is not an essential component. When the electronic device is, for example, a digital recorder or a main body of a computer, the electronic device does not include the image display unit 14, and outputs display information to an external image display unit (display) via various cables. do. In addition, the electronic device may be, for example, an air conditioner, a refrigerator, or the like.

図1を参照して記録再生装置1の構成を説明する。図1に示すように、記録再生装置1は、外部端末としてのリモートコントローラ20(以下「リモコン20」と称す)と無線接続される電子機器であり、ネットワーク上で音声によるコンテンツの検索サービスを提供する一つ以上のコンピュータとしてのサービスサーバ(サーバ200,201等)にネットワークNTWを介して接続される記録再生装置本体100を備える。記録再生装置1は、リモコン20と有線接続されることもある。 The configuration of the recording/reproducing apparatus 1 will be described with reference to FIG. As shown in FIG. 1, the recording/reproducing apparatus 1 is an electronic device that is wirelessly connected to a remote controller 20 (hereinafter referred to as "remote controller 20") as an external terminal, and provides a voice content search service on the network. The main unit 100 of the recording/reproducing apparatus is connected to one or more service servers (servers 200, 201, etc.) as one or more computers to perform the recording/reproducing apparatus via the network NTW. The recording/reproducing device 1 may be connected to the remote controller 20 by wire.

記録再生装置本体100は、リモコン20とBluetooth(登録商標)および赤外線通信などの無線通信により接続される。リモコン20は、この例のように記録再生装置1専用のものの他、例えばスマートホン、タブレット等の情報端末やマイクと通信機能を有するユニットであってもよい。 The recording/reproducing apparatus main body 100 is connected to the remote controller 20 by wireless communication such as Bluetooth (registered trademark) and infrared communication. The remote controller 20 may be an information terminal such as a smart phone or a tablet, or a unit having a microphone and a communication function, in addition to being dedicated to the recording/reproducing apparatus 1 as in this example.

リモコン20は、記録再生装置本体100の機能を操作するための複数のボタン21、信号処理部22、第1送信部としてのIR送信部23、第1集音部としてのマイク24、音声処理部25、第2送信部としてのBluetooth通信部26(以下「BT通信部26」と称す)等を有する。複数のボタン21の中の一つに設定機能を呼び出すためのボタンである設定ボタン21a、ボイス機能を動作させるためのボタンであるボイスボタン21bがある。 The remote controller 20 includes a plurality of buttons 21 for operating the functions of the recording/reproducing apparatus body 100, a signal processing section 22, an IR transmission section 23 as a first transmission section, a microphone 24 as a first sound collection section, and an audio processing section. 25, a Bluetooth communication unit 26 (hereinafter referred to as "BT communication unit 26") as a second transmission unit, and the like. One of the plurality of buttons 21 includes a setting button 21a for calling a setting function and a voice button 21b for activating a voice function.

信号処理部22は、複数のボタン21の押下に応じた信号を生成する。IR送信部23は、ボイスボタン21bの操作に応じて信号処理部22により生成される信号を赤外線通信で出力する。信号処理部22は、ボイスボタン21bが押下操作されることで、記録再生装置本体100のボイス機能に録音動作を開始させる信号、つまり記録再生装置本体100に録音開始を指示する指示信号(特定のトリガ信号)を生成する。 The signal processing unit 22 generates signals according to pressing of the plurality of buttons 21 . The IR transmission section 23 outputs a signal generated by the signal processing section 22 according to the operation of the voice button 21b by infrared communication. When the voice button 21b is pressed, the signal processing unit 22 outputs a signal for causing the voice function of the recording/reproducing apparatus main body 100 to start a recording operation, that is, an instruction signal for instructing the recording/reproducing apparatus main body 100 to start recording (specific trigger signal).

マイク24は、狭い集音域(90°程度の指向性、数十センチメートル程度の集音距離)を有しており、ボイスボタン21bの操作によりアクティブになり、自己(マイク24)の周囲の第1音声(主に話者がマイク24に向かって発話した音声)を収集するため、比較的高品質な音声が得られる。 The microphone 24 has a narrow sound collection range (directivity of about 90°, sound collection distance of about several tens of centimeters), and is activated by the operation of the voice button 21b. Since one voice (mainly voice spoken by the speaker into the microphone 24) is collected, relatively high-quality voice can be obtained.

音声処理部25は、マイク24により集音されたアナログ音声をデジタル化してBT通信部26に渡す。BT通信部26は、音声処理部25によりデジタル化された音声をBluetooth通信に送信する。つまりBT通信部26および音声処理部25は、マイク24により集音された音声を記録再生装置本体100へ送信する。 The audio processing unit 25 digitizes the analog audio collected by the microphone 24 and transfers it to the BT communication unit 26 . The BT communication unit 26 transmits the voice digitized by the voice processing unit 25 to Bluetooth communication. That is, the BT communication unit 26 and the audio processing unit 25 transmit the audio collected by the microphone 24 to the recording/reproducing apparatus body 100 .

記録再生装置本体100は、地上デジタル放送受信用のアンテナ50、チューナ51、OFDM復調器52、信号処理部53、グラフィック処理部58、音声処理部59、OSD信号生成部61、映像表示部14、スピーカ15、操作部16、図示しない各種端子(映像出力端子、音声出力端子等)、各種インターフェース(IR受信部18、BT通信部19、LANや外部ネットワークNTWとの通信インターフェース73(以下「通信 I/F73」と称す))、本体マイク81、制御モジュール65、ハードディスクドライブ101(以下「HDD101)と称す)等を有する。機器内部に備えるHDD101を内蔵HDDなどともいう。 The recording/reproducing apparatus main body 100 includes an antenna 50 for receiving terrestrial digital broadcasting, a tuner 51, an OFDM demodulator 52, a signal processing unit 53, a graphic processing unit 58, an audio processing unit 59, an OSD signal generation unit 61, a video display unit 14, Speaker 15, operation unit 16, various terminals not shown (video output terminal, audio output terminal, etc.), various interfaces (IR receiving unit 18, BT communication unit 19, communication interface 73 with LAN and external network NTW (hereinafter referred to as "communication I /F73”)), a main body microphone 81, a control module 65, a hard disk drive 101 (hereinafter referred to as “HDD 101”), etc. The HDD 101 provided inside the device is also called an internal HDD.

アンテナ50は、受信した地上デジタルテレビジョン放送信号を地上デジタル放送用のチューナ51に供給する。チューナ51は、供給された放送信号の中から指定されたチャンネルの放送信号を選択し、OFDM(orthogonal frequency division multiplexing)復調器52に供給する。 The antenna 50 supplies the received digital terrestrial television broadcast signal to a tuner 51 for digital terrestrial broadcasting. The tuner 51 selects a broadcast signal of a designated channel from the supplied broadcast signals and supplies it to an OFDM (orthogonal frequency division multiplexing) demodulator 52 .

OFDM復調器52は、入力されたチャンネルの放送信号をデジタルの映像信号及び音声信号に復調した後、信号処理部53に出力する。 The OFDM demodulator 52 demodulates the input broadcast signal of the channel into a digital video signal and audio signal, and then outputs the digital video signal and audio signal to the signal processing unit 53 .

信号処理部53は、OFDM復調器52から入力されたデジタルの映像信号及び音声信号に、所定のデジタル信号処理を施し、グラフィック処理部58及び音声処理部59に出力する。 The signal processing unit 53 performs predetermined digital signal processing on the digital video signal and audio signal input from the OFDM demodulator 52 and outputs the processed signal to the graphic processing unit 58 and the audio processing unit 59 .

グラフィック処理部58は、信号処理部53から供給されるデジタルの映像信号に、OSD(on screen display)信号生成部61で生成されるOSD信号を重畳して映像処理部62へ出力する。このグラフィック処理部58は、信号処理部53の出力映像信号と、OSD信号生成部61の出力OSD信号とを選択的に出力し、または、両出力を組み合わせて出力する。 The graphics processing unit 58 superimposes the OSD (on screen display) signal generated by the OSD (on screen display) signal generating unit 61 on the digital video signal supplied from the signal processing unit 53 , and outputs the superimposed signal to the video processing unit 62 . The graphic processing section 58 selectively outputs the output video signal of the signal processing section 53 and the output OSD signal of the OSD signal generating section 61, or outputs both outputs in combination.

映像処理部62は、グラフィック処理部58から入力されたデジタルの映像信号に、明度、輝度、彩度等の処理を施し、その映像信号を映像表示部14と映像出力端子(図示せず)に供給する。映像処理部62は、コンテンツの映像を画面へ出力する出力部として機能する。 The video processing unit 62 processes the digital video signal input from the graphics processing unit 58 for brightness, luminance, saturation, etc., and outputs the video signal to the video display unit 14 and a video output terminal (not shown). supply. The video processing unit 62 functions as an output unit that outputs video of content to a screen.

映像表示部14は、例えばディスプレイや表示パネル等であり、映像信号に基づく映像を表示パネルに表示する。映像出力端子に外部機器が接続されると、映像出力端子に供給された映像信号は、外部機器へ出力される。 The image display unit 14 is, for example, a display or a display panel, and displays an image based on the image signal on the display panel. When an external device is connected to the video output terminal, the video signal supplied to the video output terminal is output to the external device.

音声処理部59は、入力されたデジタルの音声信号を、スピーカ15で再生可能なアナログ音声信号に変換した後、スピーカ15に出力して音声を出力させる。アナログ音声信号は、ヘッドホン端子などの音声出力端子(図示せず)を介して外部に出力される。 The audio processing unit 59 converts the input digital audio signal into an analog audio signal that can be reproduced by the speaker 15, and then outputs the analog audio signal to the speaker 15 to output audio. The analog audio signal is output to the outside via an audio output terminal (not shown) such as a headphone terminal.

操作部16は、この記録再生装置本体100に設けられたボタン、スイッチ類であり、記録再生装置本体100の各機能に対してリモコン20とほぼ同等の操作が可能である。 The operation unit 16 includes buttons and switches provided on the main body 100 of the recording/reproducing apparatus, and can operate each function of the main body 100 of the recording/reproducing apparatus in substantially the same manner as the remote controller 20 .

詳述すると、操作部16は、ユーザによる直接操作、例えば番組を視聴、録画予約するためのEPG(電子番組表)表示、EPG(電子番組表)からテレビ放送(番組)のチャンネル(放送局)の選択、番組の録画開始(REC)、録画済みの番組を再生するための番組のリスト表示(過去番組表)、過去番組表から録画した番組を再生するための選択(上下左右の方向指示)や再生開始(PLAY)などに対応する制御コマンドを制御モジュール65に入力する。 More specifically, the operation unit 16 can be directly operated by the user, for example, displaying an EPG (electronic program guide) for viewing a program, recording reservation, and selecting a television broadcast (program) channel (broadcast station) from the EPG (electronic program guide). , Start recording a program (REC), Display a list of programs to play back recorded programs (past program guide), Select to play back recorded programs from the past program guide (up, down, left, and right directions) and a control command corresponding to playback start (PLAY) is input to the control module 65 .

本体マイク81は、自己(本体マイク81)の周囲(映像表示部14の画面前方のある角度で指向性を持った数メートルの範囲)の第2音声(話者の音声)を収集する第2集音部であり、リモコン20のマイク24よりも広い集音域(120°程度の指向性、数メートル程度の集音距離)で集音する。 The main body microphone 81 collects a second sound (speaker's voice) around itself (the main body microphone 81) (a range of several meters with directivity at a certain angle in front of the screen of the video display unit 14). It is a sound collecting unit, and collects sound in a wider sound collecting range than the microphone 24 of the remote controller 20 (directivity of about 120°, sound collecting distance of about several meters).

入力音声処理部64は、本体マイク81により集音されたアナログ音声をデジタル化して制御モジュール65に出力する。入力音声処理部64は、本体マイク81により収集される第2音声を取得する第2音声取得部として機能する。 The input sound processing unit 64 digitizes the analog sound collected by the main body microphone 81 and outputs the digitized sound to the control module 65 . The input sound processing unit 64 functions as a second sound acquisition unit that acquires the second sound collected by the main body microphone 81 .

通常、記録再生装置本体100が動作中、本体マイク81は集音可能な状態(アクティブ状態)で常に集音し、リモコン20のボイスボタン21bが押下されたときに非アクティブ状態(集音動作を停止した状態)に切り替えられ、リモコン20のマイク24がアクティブにされ、マイク24により収集された音声(第1音声)がリモコン20から取得される。 Normally, when the recording/reproducing apparatus main body 100 is in operation, the main body microphone 81 always collects sound in a sound-collectable state (active state), and when the voice button 21b of the remote controller 20 is pressed, it is in an inactive state (sound-collecting operation is activated). (stopped state), the microphone 24 of the remote controller 20 is activated, and the voice (first voice) collected by the microphone 24 is obtained from the remote controller 20 .

この他、リモコン20のボイスボタン21bが押下されたときでも本体マイク81を集音可能な状態(アクティブ状態)を維持し、2つのマイク24、81からそれぞれ集音される音の圧力の強い(音圧が大きい)方または音声が明りょうに集音される(明瞭性が高い)方(結果として、音声認識率の高い方)のマイクから集音した音声またはそれを録音した音声を音声認識部71へ出力するようにしてもよい。 In addition, even when the voice button 21b of the remote controller 20 is pressed, the main body microphone 81 is maintained in a state capable of collecting sound (active state), and the pressure of the sounds collected from the two microphones 24 and 81 is strong ( Speech recognition of the sound collected from the microphone of the one with the louder sound pressure or the one that picks up the voice clearly (higher intelligibility) (resulting in the higher speech recognition rate) You may make it output to the part 71. FIG.

音声の明瞭性は、例えば、明瞭度指数(一例として、SII:Speech Intelligibility Index)によって評価できる。SIIは「ANSI S3.5-1997」として標準化されており、基本的には、区分した周波数帯毎に信号対雑音比と周波数別の係数(周波数別の明瞭度への寄与率)から周波数別の明瞭度指数を求め、それらの総和により全体の明瞭度指数を求める。
これを簡略化し、周波数帯を音声の明瞭度に大きく寄与する周波数帯域(例えば、1000Hz~3,000Hz)に限定して、明瞭度指数を求めてもよい。
The clarity of speech can be evaluated by, for example, a clarity index (eg, SII: Speech Intelligibility Index). SII is standardized as "ANSI S3.5-1997", and basically, for each divided frequency band, the signal-to-noise ratio and the coefficient for each frequency (contribution rate to clarity for each frequency) , and sum them up to obtain the overall clarity index.
This may be simplified, and the intelligibility index may be obtained by limiting the frequency band to a frequency band that greatly contributes to speech intelligibility (eg, 1000 Hz to 3,000 Hz).

このとき、音圧Pvと明瞭度指数SIIのいずれかから、音声認識率の高低を評価することができる。
なお、音圧Pvと明瞭度指数SIIの組み合わせによって、音声認識率の高低を評価してもよい。例えば、次の式(1)のように、音圧Pvと明瞭度指数SIIの線形加算によって、音声認識率を評価できる。
R=K1*Pv+K2*SII … 式(1)
ここで、計数K1,K2は、比例係数である。
すなわち、式(1)によって定まる値Rが大きい方の音声を音声認識率が高いものとすることができる。
At this time, it is possible to evaluate whether the speech recognition rate is high or low from either the sound pressure Pv or the articulation index SII.
The speech recognition rate may be evaluated by combining the sound pressure Pv and the articulation index SII. For example, the speech recognition rate can be evaluated by linear addition of the sound pressure Pv and the articulation index SII, as in the following equation (1).
R=K1*Pv+K2*SII... Formula (1)
Here, the coefficients K1 and K2 are proportional coefficients.
That is, the speech with the larger value R determined by the equation (1) can be made to have a higher speech recognition rate.

IR受信部18は、リモコン20からの指示(操作入力)、例えばチャンネル(放送局)の選択(選局)、録画開始(REC)、録画した番組の再生(PLAY)、一時停止(PAUSE)、特殊再生、あるいはメニュー表示等に対応するコマンドを赤外線通信により制御モジュール65に入力する。 The IR receiver 18 receives instructions (operation input) from the remote controller 20, such as selection of a channel (broadcasting station), start of recording (REC), playback of a recorded program (PLAY), pause (PAUSE), A command corresponding to special reproduction, menu display, or the like is input to the control module 65 through infrared communication.

BT通信部19は、リモコン20とBluetooth通信(近距離無線通信)を行う。BT通信部19は、リモコン20から送信される音声信号を受信し制御モジュール65に入力する。BT通信部19は、リモコン20のマイク24が収集した第1音声をリモコン20から取得する第1音声取得部として機能する。 The BT communication unit 19 performs Bluetooth communication (short-range wireless communication) with the remote controller 20 . The BT communication unit 19 receives an audio signal transmitted from the remote controller 20 and inputs it to the control module 65 . The BT communication unit 19 functions as a first sound acquisition unit that acquires from the remote controller 20 the first sound collected by the microphone 24 of the remote controller 20 .

この他、WiFi(Wireless Fidelity)通信部などを備えることで、WiFi規格等に準拠する近距離無線通信機器との間で無線通信を行ってもよい。さらにNFC(Near Field Communication)等の規格の近距離無線通信部を設けて、同規格の外部機器と通信するようにしてもよい。 In addition, by providing a WiFi (Wireless Fidelity) communication unit or the like, wireless communication may be performed with a short-range wireless communication device conforming to the WiFi standard or the like. Further, a short-range wireless communication unit conforming to a standard such as NFC (Near Field Communication) may be provided to communicate with an external device conforming to the same standard.

USB I/F76は、USB規格に対応する外部接続装置(入力装置や記憶装置)等とデータや信号の通信を行う。入力装置としては、例えばキーボード、マウス等である。記憶装置としては、この例のようにUSB端子に接続されるHDD102などである。HDD101、102は、設定により記憶領域をさまざまに利用することができる。 The USB I/F 76 communicates data and signals with an external connection device (input device or storage device) conforming to the USB standard. Input devices include, for example, a keyboard and a mouse. The storage device is the HDD 102 connected to the USB terminal as in this example. The HDDs 101 and 102 can use the storage areas in various ways depending on the settings.

HDD101には、電子番組表(EPG)からユーザが個別に指定した番組を予約録画または手動録画するように設定し、HDD102には、ユーザが予め指定した特定のチャンネル(放送事業者や配信事業者)および所定の時間帯の番組を一定期間の間、全て記録するタイムシフトマシン機能(全番組録画機能:「全録機能」または「ループ録画機能」ともいう)による録画を設定可能である。またこの逆の設定も可能である。 The HDD 101 is set to schedule recording or manual recording of programs individually specified by the user from an electronic program guide (EPG). ) and recording by a time shift machine function (all program recording function: also referred to as "all recording function" or "loop recording function") for recording all programs in a predetermined time period for a certain period of time. The reverse setting is also possible.

なお、この例では、機器内部にHDD101を備え、機器外部にHDD102を接続した例を説明したが、外部接続のHDD102を複数接続してもよい。 In this example, the HDD 101 is provided inside the device and the HDD 102 is connected to the outside of the device, but a plurality of externally connected HDDs 102 may be connected.

通信 I/F73は、制御モジュール65により制御されて、外部ネットワークNTWへのアクセスと外部ネットワークNTW上のさまざまなサービスサーバ(音声認識によるコンテンツの検索サービスを提供するサーバ200、201等)との通信を行う。具体的には、通信 I/F73は、制御モジュール65により制御されて、情報の取得のための検索要求(入力情報の送信)や検索の結果の受け取り(情報の取得)等を行う。 The communication I/F 73 is controlled by the control module 65 to access the external network NTW and communicate with various service servers on the external network NTW (servers 200, 201, etc. that provide content search services by voice recognition). I do. Specifically, the communication I/F 73 is controlled by the control module 65 to make a search request for obtaining information (transmission of input information), receive search results (obtain information), and the like.

サーバ200は、テレビ番組の視聴や録画予約、録画済みのコンテンツの履歴保管等に利用する番組情報を管理し、AIアシスタント機能の、発話(音声)による番組の検索や番組に関連するコンテンツの検索サービス(以下「Aサービス」、「第1検索サービス」等という)を行う。 The server 200 manages program information used for watching TV programs, recording reservations, history storage of recorded content, etc., and searches for programs and content related to programs by utterance (voice) of the AI assistant function. Services (hereinafter referred to as "A service", "first search service", etc.) are provided.

サーバ201は、AIアシスタント機能の、発話(音声)によるインターネット上のコンテンツの検索サービス(以下「Bサービス」、「第2検索サービス」などという)を提供するコンピュータであり、交通情報、気象情報、インターネット番組、辞書等、広い範囲でのコンテンツの検索が可能である。 The server 201 is a computer that provides search services (hereinafter referred to as "service B", "second search service", etc.) for content on the Internet using speech (voice) as an AI assistant function. It is possible to search a wide range of contents such as Internet programs and dictionaries.

これらのサービスサーバのサービスは、音声での検索だけでなく、音声を文字化した文字データでの検索にも対応している。ここではデジタルの音声信号やその文字データを含めて音声データという。 The services of these service servers support not only searches by voice, but also searches by character data obtained by converting voice into characters. Here, the term voice data includes a digital voice signal and its character data.

制御モジュール65は、この装置の動作を司る制御プログラムを格納したROM(read only memory)66、信号やデータを処理する際の作業エリアを提供するRAM(random access memory)67、録画予約情報、各種の設定情報、及び制御情報等が格納されるフラッシュメモリ68、設定部69、録音部70、音声認識部71、制御部72等を有しており、上記した信号処理等を含む記録再生装置本体100の全ての機能(放送受信機能、番組の録画及び再生機能、設定機能、ボイス機能、ネットワークとの通信機能)及び動作を統括的に制御する。ボイス機能とは、音声/文字変換機能及び構文解析機能を含む音声認識部71の音声認識機能である。 A control module 65 includes a ROM (read only memory) 66 that stores a control program that controls the operation of the device, a RAM (random access memory) 67 that provides a work area for processing signals and data, recording reservation information, various , a flash memory 68, a setting unit 69, a recording unit 70, a voice recognition unit 71, a control unit 72, etc., which store setting information, control information, etc., and a recording/reproducing apparatus main body including the above-described signal processing, etc. 100 (broadcast reception function, program recording and playback function, setting function, voice function, network communication function) and operations are controlled in an integrated manner. A voice function is a speech recognition function of the speech recognition section 71 including a speech/text conversion function and a parsing function.

これにより、記録再生装置本体100は、放送受信機能により地上デジタル放送を受信し、録画機能によりHDD101、102に記録した番組(音声を含む映像データ)を再生機能で再生することで、ユーザは番組を視聴可能になる。また、記録再生装置本体100は、ホームネットワークに接続することで、ホームネットワークに接続された他のレコーダあるいはホームサーバーに保存(記録)された番組を再生できる。 As a result, the recording/reproducing apparatus main body 100 receives terrestrial digital broadcasting with the broadcast receiving function, and reproduces programs (video data including audio) recorded on the HDDs 101 and 102 with the recording function, so that the user can enjoy the program. becomes available for viewing. Also, by connecting to a home network, the recording/reproducing apparatus main body 100 can reproduce programs saved (recorded) in another recorder connected to the home network or in a home server.

フラッシュメモリ68には、予約録画機能により予約録画するための録画予約テーブルや個別の番組の録画予約テーブル、録画された番組の属性情報である録画情報、ボイス機能の設定情報等が記憶されている。設定情報は、予め設定されている場合もあり、設定部69により表示される設定メニュー画面からユーザの選択操作により設定される場合もある。設定情報には、一つ以上のサービスサーバ(サーバ200、201等)による検索サービスの中からいずれかを選定するための選定条件が含まれる。 The flash memory 68 stores a recording reservation table for reserved recording by the reservation recording function, a recording reservation table for individual programs, recording information as attribute information of the recorded programs, setting information of the voice function, and the like. . The setting information may be set in advance, or may be set by a user's selection operation from a setting menu screen displayed by the setting unit 69 . The setting information includes selection conditions for selecting one of search services provided by one or more service servers (servers 200, 201, etc.).

すなわち、フラッシュメモリ68は、2つのマイク24、81のうちいずれかをアクティブ(動作状態)または非アクティブ(動作停止状態)にするための条件、または2つのマイク24、81で取得される2つの音声のうちいずれかを利用するための条件を記憶した記憶部といえる。 That is, the flash memory 68 stores conditions for making one of the two microphones 24 and 81 active (operating state) or inactive (operating stop state), or two conditions obtained by the two microphones 24 and 81. It can be said that it is a storage unit that stores conditions for using one of the voices.

設定部69は、フラッシュメモリ68に設定情報を設定するための画面を表示し、ユーザによる設定操作の後、確定した設定情報をフラッシュメモリ68に記憶する。 The setting unit 69 displays a screen for setting setting information in the flash memory 68 , and stores the confirmed setting information in the flash memory 68 after the setting operation by the user.

録音部70は、BT通信部1(第1音声取得部)により取得された第1音声及び入力音声処理部64(第2音声取得部)により取得された第2音声をフラッシュメモリ68またはHDD101等に記憶(録音)する。 The recording unit 70 stores the first voice acquired by the BT communication unit 1 (first voice acquisition unit) and the second voice acquired by the input voice processing unit 64 (second voice acquisition unit) in the flash memory 68, the HDD 101, or the like. stored (recorded) in

音声認識部71は、録音部70により録音された音声をフラッシュメモリ68またはHDD101等から読み出して解析、つまり音声認識処理する。 The voice recognition unit 71 reads the voice recorded by the recording unit 70 from the flash memory 68, the HDD 101, or the like and analyzes it, that is, performs voice recognition processing.

なお、記録再生装置本体100の処理能力が高ければ、録音された音声を読み出して処理するのではなく、BT通信部26により受信されるリモコン20からの音声(第1音声)または本体マイク81により集音される音声(第2音声)をリアルタイムに解析してもよい。音声を解析するとは、音声(ユーザが発した声)を文字化し、文字化した音声データを予め設定されている解析用の辞書を用いて構文解析し、単語や意味のある文字、または文字列(キーワード)を抽出する音声認識処理をいう。 If the recording/reproducing device main body 100 has a high processing capability, the recorded sound is not read out and processed, but the sound (first sound) from the remote controller 20 received by the BT communication unit 26 or the main body microphone 81 is used. The collected sound (second sound) may be analyzed in real time. Analyzing speech means transcribing speech (voice uttered by the user) into text, syntactically analyzing the textualized voice data using a preset analysis dictionary, and extracting words, meaningful characters, or character strings. It refers to speech recognition processing that extracts (keywords).

制御部72は、リモコン20のマイク24の第1音声および本体マイク81の第2音声のうち予め設定された条件に合致する音声を音声認識部71へ入力し音声認識処理させる。 The control unit 72 inputs the first voice of the microphone 24 of the remote controller 20 and the second voice of the main body microphone 81 that meets a preset condition to the voice recognition unit 71 for voice recognition processing.

ここで、条件とは、以下の、「1.」~「3.」の条件がある。
「1.」の条件…例えばリモコン20のボイスボタン21bの操作により信号が受信された場合、本体マイク81の動作を停止させる、
「2.」の条件…リモコン20のボイスボタン21bの操作により信号が受信された場合、リモコン20から得られた第1音声を音声認識部71に認識させる、
「3.」の条件…録音された2つの音声のうち音質の良い方の音声を使用する、
等である。
Here, the conditions include the following conditions "1." to "3.".
Condition "1."... For example, when a signal is received by operating the voice button 21b of the remote controller 20, the operation of the main body microphone 81 is stopped.
Condition "2.": When a signal is received by operating the voice button 21b of the remote controller 20, the first voice obtained from the remote controller 20 is recognized by the voice recognition unit 71.
Condition 3. Use the better quality of the two recorded voices.
etc.

制御部72は、ROM66に保持されている制御プログラムをRAM67が提供する作業エリアに呼び出し、呼び出した制御プログラムに基づき、入力信号や制御信号に対応する処理を実行する。 The control unit 72 calls the control program held in the ROM 66 to the work area provided by the RAM 67, and executes processing corresponding to the input signal and the control signal based on the called control program.

制御部72は、例えば記録再生機能、ボイス機能を制御し、コンテンツ(番組)に関連する、さまざまな情報(属性情報)を取得する。 The control unit 72 controls, for example, a recording/playback function and a voice function, and acquires various information (attribute information) related to contents (programs).

制御部72は、操作部16からの操作情報(制御入力)やIR受信部18が受信するリモコン20からの操作情報(制御入力)に基づいて、この装置の各部(設定部69、録音部70、音声認識部71等)を制御する。 The control unit 72 controls each unit (setting unit 69, recording unit 70 , speech recognition unit 71, etc.).

また、制御部72は、各種の設定情報やホームネットワークにおいてホームサーバーと接続する他のレコーダやテレビジョン装置に関する管理情報などをフラッシュメモリ68に書き込む。 In addition, the control unit 72 writes into the flash memory 68 various setting information and management information related to other recorders and televisions connected to the home server in the home network.

制御部72は、例えばユーザによる操作指示(制御入力)あるいは予約録画のための録画予約情報に基づいて記録再生機能を制御し、出力する映像信号や音声信号などを、予め指定された側のHDD(HDD101、102のうちいずれか)に録画(記録)する。 The control unit 72 controls the recording/playback function based on, for example, an operation instruction (control input) from the user or recording reservation information for reserved recording, and outputs video signals, audio signals, etc. Record (record) on (one of the HDDs 101 and 102).

制御部72は、検索サービスを提供するサービスサーバ(サーバ200、201のうちのいずれか)に、音声認識部71による認識結果の文字または文字列と、取得された音声(第1音声または第2音声)を用いたコンテンツの検索を行わせ、検索の結果を受け取る。 The control unit 72 transmits the characters or character strings as the result of recognition by the speech recognition unit 71 and the acquired speech (first speech or second search for content using voice) and receive the results of the search.

つまり制御部72は、サービスサーバ(サーバ200、201のうちのいずれか)に対して、コンテンツの取得のための検索要求(入力情報の送信)や検索の結果の受け取り(コンテンツの取得)等を行う。 In other words, the control unit 72 sends a search request (transmission of input information) for acquiring content, receives search results (acquisition of content), etc. to the service server (one of the servers 200 and 201). conduct.

詳述すると、制御部72は、サービスサーバ(サーバ200、201のうちのいずれか)に対して、通信 I/F73を介して、音声認識部71による認識結果の文字または文字列と、取得した音声の少なくとも一部を用いてコンテンツの検索要求を行い、検索要求に対して当該サーバから受信された検索の結果を映像表示部14に出力する。 More specifically, the control unit 72 provides the service server (one of the servers 200 and 201) via the communication I/F 73 with the character or character string as the result of recognition by the speech recognition unit 71 and the acquired character string. A content search request is made using at least part of the voice, and the search result received from the server in response to the search request is output to the video display unit 14 .

また、制御部72は、通信 I/F73を介して外部のネットワークNTWに接続されるサービスサーバ(サーバ200、201等)と情報を送受信する。さらに、上記制御部72は、USB I/F76を介してUSB対応機器と情報伝送を行なう。 The control unit 72 also transmits and receives information to and from service servers (servers 200, 201, etc.) connected to an external network NTW via the communication I/F 73. FIG. Furthermore, the control unit 72 performs information transmission with USB compatible devices via the USB I/F 76 .

さらに、制御部72は、チューナ51により受信され、選局されたチャネルのコンテンツ(番組)を表示する。また、制御部72は、フラッシュメモリ68に記憶された録画予約リストに含まれた録画予約情報を参照し、チューナ51により受信された信号に基づくコンテンツ(番組)の録画動作を制御する。録画動作には、手動操作による録画等も含まれる。録画動作の際のコンテンツ(番組)の録画先は、例えば機器内部に備えるHDD101、USB I/F76を介して接続されたHDD102などである。 Furthermore, the control unit 72 displays the content (program) of the channel that has been received by the tuner 51 and selected. The control unit 72 also refers to the recording reservation information included in the recording reservation list stored in the flash memory 68 and controls the recording operation of the content (program) based on the signal received by the tuner 51 . The recording operation includes recording by manual operation. The recording destination of the content (program) during the recording operation is, for example, the HDD 101 provided inside the device, the HDD 102 connected via the USB I/F 76, or the like.

以下、図2乃至図4を参照して、上記「1.」~「3.」の条件に応じた動作を説明する。まず、図2のフローチャートを参照してこの記録再生装置1の「1.」の条件に応じた第1動作例を説明する。
この第1動作例の場合、記録再生装置本体100が起動すると、制御部72は、本体マイク81をアクティブにして、本体マイク81周辺からの集音を行う(図2のステップS101)。
2 to 4, the operation corresponding to the above conditions "1." to "3." will be described. First, with reference to the flow chart of FIG. 2, a first operation example of the recording/reproducing apparatus 1 according to the condition "1." will be described.
In the case of this first operation example, when the recording/reproducing apparatus main body 100 is activated, the control unit 72 activates the main body microphone 81 and collects sounds from around the main body microphone 81 (step S101 in FIG. 2).

本体マイク81での集音中、リモコン20のボイスボタン21bが操作されずに信号が受信されなければ(ステップS102のNo)、制御部72は、録音部70および音声認識部71を制御して、本体マイク81により集音された音声を録音し(ステップS103)、録音した音声を音声認識処理させる(ステップS104)。 If no signal is received because the voice button 21b of the remote control 20 is not operated during sound collection by the main body microphone 81 (No in step S102), the control unit 72 controls the recording unit 70 and the voice recognition unit 71. , the voice collected by the main body microphone 81 is recorded (step S103), and the recorded voice is subjected to voice recognition processing (step S104).

そして、制御部72は、音声認識処理の結果(単語(文字)、文字列、キーワードなど)および音声を基に、予め要求先として設定されたサービスサーバ(サーバ200、201のいずれか)に検索要求を行う(ステップS105)。検索要求には、録音された音声の少なくとも一部が含まれ、必要に応じて解析結果の単語等が含まれる。 Then, the control unit 72 searches for a service server (one of the servers 200 and 201) set in advance as a request destination based on the result of the voice recognition processing (words (characters), character strings, keywords, etc.) and the voice. A request is made (step S105). The search request includes at least a portion of the recorded voice and, if necessary, words and the like resulting from the analysis.

検索要求を受け取ったサービスサーバ(サーバ200、201のいずれか)では、受け取った音声や単語を基にコンテンツの検索を行い、検索の結果(コンテンツ)を記録再生装置本体100に送る。 Upon receiving the search request, the service server (server 200 or 201 ) searches for content based on the received voice or word, and sends the search result (content) to the recording/reproducing apparatus main body 100 .

記録再生装置本体100では、サーバから送信された検索の結果(コンテンツ)が受信されると(ステップS106)、そのコンテンツを映像表示部14に出力し(ステップS107)表示する。 When the recording/reproducing apparatus main body 100 receives the search result (content) transmitted from the server (step S106), the content is output to the video display unit 14 (step S107) and displayed.

一方、本体マイク81での集音中に(ステップS101)、ユーザによりリモコン20のボタン21が操作されると、リモコン20では、信号処理部22が、ボタン21に応じた信号を生成し、生成された信号がIR送信部23から送信される。 On the other hand, when the user operates the button 21 of the remote control 20 while the main body microphone 81 is collecting sound (step S101), the signal processing unit 22 of the remote control 20 generates a signal corresponding to the button 21, and generates a signal corresponding to the button 21. The received signal is transmitted from the IR transmitter 23 .

ここで、例えばリモコン20の特定のボタンであるボイスボタン21bが押下されると、信号処理部22がマイク24をアクティブにし、マイク24による集音が開始される。 Here, for example, when the voice button 21b, which is a specific button of the remote controller 20, is pressed, the signal processing unit 22 activates the microphone 24, and the microphone 24 starts collecting sounds.

ここで、ユーザがリモコン20のマイク24に向かって発話すると、その音声がマイク24によって収集されて音声処理の後、BT通信部26から送信される。 Here, when the user speaks into the microphone 24 of the remote controller 20 , the voice is collected by the microphone 24 and transmitted from the BT communication section 26 after voice processing.

記録再生装置本体100では、リモコン20から送信されたIR信号がIR受信部18に受信されると(ステップS102のYes)、制御部72は、その信号がボイスボタン21bの信号か否かを判定する(ステップS108)。 In the recording/reproducing apparatus main body 100, when the IR signal transmitted from the remote controller 20 is received by the IR receiving section 18 (Yes in step S102), the control section 72 determines whether or not the signal is the signal of the voice button 21b. (step S108).

判定の結果、ボイスボタン21bの信号でなければ(ステップS108のNo)、その信号に応じた機能の制御を行う(ステップS109)。 As a result of determination, if it is not the signal of the voice button 21b (No in step S108), the function corresponding to the signal is controlled (step S109).

一方、受信された信号がボイスボタン21bの信号の場合(ステップS108のYes)、次に、制御部72は、フラッシュメモリ68の条件を参照する。この動作のときの条件「1.」は、リモコン20のボイスボタン21bの操作により信号が受信された場合、本体マイク81の動作を停止させる、という条件であるため、制御部72は、本体マイク81を非アクティブにして(ステップS110)、本体マイク81による第2音声の集音を停止する。 On the other hand, if the received signal is the voice button 21b signal (Yes in step S108), then the controller 72 refers to the conditions in the flash memory 68. FIG. The condition "1." for this operation is to stop the operation of the main body microphone 81 when a signal is received by operating the voice button 21b of the remote controller 20. 81 is deactivated (step S110), and the main body microphone 81 stops collecting the second sound.

そして、リモコン20からの第1音声が受信されると(ステップS111)、制御部72は、録音部70を制御して、リモコン20からの第1音声を録音する(ステップS112)。 Then, when the first sound from the remote controller 20 is received (step S111), the control unit 72 controls the recording unit 70 to record the first sound from the remote controller 20 (step S112).

この第1動作例によれば、記録再生装置本体100に設定部69、録音部70、音声認識部71及び制御部72を設け、リモコン20のボイスボタン21bが押下されその信号が受信された場合、本体マイク81を非アクティブにしてリモコン20のマイク24から取得された第1音声を音声認識処理に用いることで、音声認識の精度を高めることができる。 According to this first operation example, the recording/reproducing apparatus main body 100 is provided with the setting unit 69, the recording unit 70, the voice recognition unit 71, and the control unit 72, and when the voice button 21b of the remote control 20 is pressed and the signal is received, By using the first voice acquired from the microphone 24 of the remote controller 20 for voice recognition processing with the main body microphone 81 inactive, the accuracy of voice recognition can be improved.

例えば、通常は、本体マイク81での集音および音声認識処理を行い、リモコン20のボイスボタン21bが押下されて録音開始のトリガ信号が受信された場合、制御部72は、そのトリガをきっかけに本体マイク81を非アクティブに、リモコン20のマイク24をアクティブにして、話者との距離が近いリモコン20で集音された第1音声を音声認識処理に用いることで、リモコン20を操作した話者(ユーザ)の高品質の音声を取得して音声認識処理を高精度に行うことができる。 For example, normally, sound collection and voice recognition processing are performed by the main body microphone 81, and when the voice button 21b of the remote controller 20 is pressed and a trigger signal for starting recording is received, the control unit 72 is triggered by the trigger. By deactivating the main body microphone 81 and activating the microphone 24 of the remote controller 20 and using the first sound collected by the remote controller 20, which is close to the speaker, for speech recognition processing, a story in which the remote controller 20 is operated is performed. It is possible to acquire high-quality speech of a person (user) and perform speech recognition processing with high accuracy.

次に、図3のフローチャートを参照してこの記録再生装置1の「2.」の条件に応じた第2動作例を説明する。なおこの第2動作例において、第1動作例と同じ動作には同一の符号を付しその説明は省略する。 Next, a second operation example of the recording/reproducing apparatus 1 according to the condition "2." will be described with reference to the flow chart of FIG. In this second operation example, the same reference numerals are given to the same operations as in the first operation example, and the explanation thereof will be omitted.

この第2動作例の場合、記録再生装置本体100が起動すると、制御部72は、本体マイク81をアクティブにして、本体マイク81周辺からの集音を行う(図3のステップS101)。 In the case of this second operation example, when the recording/reproducing apparatus main body 100 is activated, the control section 72 activates the main body microphone 81 and collects sounds from around the main body microphone 81 (step S101 in FIG. 3).

本体マイク81での集音中、リモコン20のボイスボタン21bが操作されずに信号が受信されなければ(ステップS102のNo)、制御部72は、第1動作例と同様に動作する(ステップS103~S107)。 If no signal is received because the voice button 21b of the remote control 20 is not operated during sound collection by the main body microphone 81 (No in step S102), the control unit 72 operates in the same manner as in the first operation example (step S103). ~S107).

一方、本体マイク81での集音中に(ステップS101)、ユーザによりリモコン20のボタン21が操作されると、リモコン20では、信号処理部22が、ボタン21に応じた信号を生成し、生成された信号がIR送信部23から送信される。 On the other hand, when the user operates the button 21 of the remote control 20 while the main body microphone 81 is collecting sound (step S101), the signal processing unit 22 of the remote control 20 generates a signal corresponding to the button 21, and generates a signal corresponding to the button 21. The received signal is transmitted from the IR transmitter 23 .

ここで、例えばリモコン20の特定のボタンであるボイスボタン21bが押下されると、信号処理部22がマイク24をアクティブにし、マイク24による集音が開始される。 Here, for example, when the voice button 21b, which is a specific button of the remote controller 20, is pressed, the signal processing unit 22 activates the microphone 24, and the microphone 24 starts collecting sounds.

そして、ユーザがリモコン20のマイク24に向かって発話すると、その音声がマイク24によって収集されて音声処理の後、BT通信部26から送信される。 Then, when the user speaks into the microphone 24 of the remote controller 20 , the voice is collected by the microphone 24 and transmitted from the BT communication section 26 after voice processing.

記録再生装置本体100では、リモコン20から送信されたIR信号がIR受信部18に受信されると(ステップS102のYes)、制御部72は、その信号がボイスボタン21bの信号か否かを判定する(ステップS108)。 In the recording/reproducing apparatus main body 100, when the IR signal transmitted from the remote controller 20 is received by the IR receiving section 18 (Yes in step S102), the control section 72 determines whether or not the signal is the signal of the voice button 21b. (step S108).

判定の結果、ボイスボタン21bの信号でなければ(ステップS108のNo)、その信号に応じた機能の制御を行う(ステップS109)。 As a result of determination, if it is not the signal of the voice button 21b (No in step S108), the function corresponding to the signal is controlled (step S109).

一方、受信された信号がボイスボタン21bの信号の場合(ステップS108のYes)、続いて制御部72は、リモコン20からの音声の受信を待機し、リモコン20の音声が受信されると(ステップS121)、録音部70を制御して、リモコン20からの音声を録音する(ステップS122)。なお、この間も本体マイク81は、アクティブのままのため、本体マイク81により集音された音声の録音も続けられる(ステップS103)。 On the other hand, if the received signal is the signal of the voice button 21b (Yes in step S108), then the control unit 72 waits for reception of voice from the remote controller 20, and when the voice of the remote controller 20 is received (step S121), and controls the recording unit 70 to record the voice from the remote controller 20 (step S122). Since the main body microphone 81 remains active during this period, the recording of the sound collected by the main body microphone 81 is also continued (step S103).

次に、制御部72は、フラッシュメモリ68の条件を参照する。この動作の条件「2.」は、リモコン20のボイスボタン21bの操作により信号が受信された場合、リモコン20から得られた第1音声を音声認識部71に認識させる、という条件であるため、制御部72は、録音部70によりそれぞれ録音された2つの音声のうち、リモコン20から得られた第1音声を音声認識部71に入力し、音声認識部71に音声認識処理させる(S123)。以降、音声認識部71の音声認識結果を用いる動作は第1実施形態と同じである。 Next, the controller 72 refers to the conditions of the flash memory 68 . Condition "2." of this operation is a condition that, when a signal is received by operating the voice button 21b of the remote controller 20, the speech recognition unit 71 recognizes the first voice obtained from the remote controller 20. Of the two sounds respectively recorded by the recording unit 70, the control unit 72 inputs the first sound obtained from the remote controller 20 to the voice recognition unit 71, and causes the voice recognition unit 71 to perform voice recognition processing (S123). After that, the operation using the speech recognition result of the speech recognition unit 71 is the same as in the first embodiment.

この第2動作例によれば、リモコン20のボイスボタン21bの操作により信号が受信された場合、制御部72は、録音部70によりそれぞれ録音された2つの音声(第1音声及び第2音声)のうち、録音されたリモコン20の第1音声を音声認識部71に入力し、音声認識部71に音声認識処理させる。 According to this second operation example, when a signal is received by operating the voice button 21b of the remote controller 20, the control unit 72 outputs two sounds (first sound and second sound) respectively recorded by the recording unit 70. Among them, the recorded first voice of the remote controller 20 is input to the voice recognition section 71, and the voice recognition section 71 performs voice recognition processing.

例えば、録音開始のトリガが記録再生装置本体100の起動かまたはリモコン20のボイス釦1bの押下であった場合に、そのトリガをきっかけに本体マイク81の第2音声の録音とリモコン20のマイク24の第1音声の録音とを同時に行う。そして、トリガ発生元が話者(ユーザ)との距離が近いリモコン20であれば、リモコン20のマイク24により集音された音声を取得して音声認識処理を行う。このように同時に録音した複数の音声の中から、話者との距離が近くリモコン20から高品質の音声を認識処理することで音声の認識精度を高めることができる。 For example, when the recording start trigger is activation of the recording/reproducing apparatus main body 100 or pressing of the voice button 1b of the remote controller 20, the trigger triggers the recording of the second voice by the main microphone 81 and the microphone 24 of the remote controller 20. simultaneously with the recording of the first voice of If the trigger source is the remote controller 20 that is close to the speaker (user), the voice collected by the microphone 24 of the remote controller 20 is acquired and voice recognition processing is performed. By recognizing a high-quality voice from the remote controller 20 that is close to the speaker from among a plurality of simultaneously recorded voices, the voice recognition accuracy can be improved.

次に、図4のフローチャートを参照してこの記録再生装置1の「3.」の条件に応じた第3動作例を説明する。なおこの第3動作例において、第2動作例と同じ動作には同一の符号を付しその説明は省略する。 Next, a third operation example of the recording/reproducing apparatus 1 according to the condition "3." will be described with reference to the flow chart of FIG. In this third operation example, the same reference numerals are given to the same operations as in the second operation example, and the explanation thereof will be omitted.

この第3動作例の場合、記録再生装置本体100が起動してから、各マイクにより集音される音声を録音するまでの動作は第2動作例と同じてあり、その説明は省略する。 In the case of this third operation example, the operation from the activation of the recording/reproducing apparatus main body 100 to the recording of the sound collected by each microphone is the same as in the second operation example, and the description thereof will be omitted.

制御部72は、2つの音声がそれぞれ録音される中、フラッシュメモリ68の条件を参照する。この動作の条件「3.」は、録音された2つの音声のうち音質の良い方の音声を使用する、という条件であるため、制御部72は、録音部70によりそれぞれ録音された2つの音声に対して音質チェックを行い、音質チェックした2つの音声のうち、音声認識率の高い方の音声を音声認識部71に入力し、音声認識部71に音声認識処理させる(S131、S132)。以降、音声認識部71の音声認識結果を用いる動作は第1および第2実施形態と同じである。 The control unit 72 refers to the conditions in the flash memory 68 while each of the two voices is being recorded. Since the condition "3." of this operation is to use the sound with the better quality out of the two recorded sounds, the control unit 72 controls the two sounds recorded by the recording unit 70 respectively. The sound quality is checked, and the sound with the higher speech recognition rate out of the two sound-checked sounds is input to the speech recognition section 71, and the speech recognition section 71 performs speech recognition processing (S131, S132). After that, the operation using the speech recognition result of the speech recognition unit 71 is the same as in the first and second embodiments.

この第3動作例によれば、リモコン20のマイク24及び本体マイク81からそれぞれ取得され録音した複数の音声(第1音声及び第2音声)それぞれの品質を制御部72がチェックし、録音した複数の音声のうち最も品質の良い音声を音声認識処理に用いるので、音声認識の精度を高めることができる。 According to this third operation example, the control unit 72 checks the quality of each of a plurality of voices (first voice and second voice) acquired and recorded from the microphone 24 of the remote controller 20 and the main body microphone 81, and checks the quality of each of the plurality of recorded voices. Since the voice with the highest quality among the voices is used for voice recognition processing, the accuracy of voice recognition can be improved.

なお、この第3動作例では、マイク24の集音を開始するトリガを第2動作例と同じとしたが、集音自体は、それぞれのマイクで常時行い、音声認識処理のタイミングをリモコン20のボイスボタン21bが押下されたとき、つまりボイスボタン21bの信号が受信されたときとしてもよい。 In this third operation example, the trigger for starting sound collection by the microphone 24 is the same as in the second operation example. It may be when the voice button 21b is pressed, that is, when the signal of the voice button 21b is received.

以上、説明したようにこの実施形態の記録再生装置1によれば、リモコン20(外部端末)と記録再生装置本体100(電子機器)の両方にマイク(集音部)を設けて集音し、集音した音声のうち「1.」~「3.」の条件に合致する音声を音声認識処理に使用するよう構成することで、操作者(話者)の指示操作性を高めつつ、話者の状況によって複数のマイク24、81を使い分けてそれぞれのマイク24、81で収集した音声を活用することができる。
また、本実施形態では、話者の状況によって複数のマイク24、81を使い分けることにより、例えば話者に近いマイク24に集音部を切り替えることで、高音質な音声データを取得できる。この他、リモコン20のマイク24で集音中に本体マイク81が誤反応してしまうことを避けることができる、という効果も得られる。
As described above, according to the recording/reproducing apparatus 1 of this embodiment, both the remote controller 20 (external terminal) and the recording/reproducing apparatus main body 100 (electronic device) are provided with microphones (sound collectors) to collect sound, Out of the collected sounds, by configuring to use the sounds that meet the conditions of "1." A plurality of microphones 24 and 81 can be selectively used depending on the situation, and the sounds collected by the respective microphones 24 and 81 can be utilized.
In addition, in the present embodiment, high-quality voice data can be obtained by selectively using the plurality of microphones 24 and 81 depending on the situation of the speaker, for example, by switching the sound collecting unit to the microphone 24 closer to the speaker. In addition, it is possible to prevent the main body microphone 81 from making an erroneous response while the microphone 24 of the remote controller 20 is collecting sounds.

なお、上記実施形態では、記録再生装置本体100とリモコン20にそれぞれマイク24、81等を設けた例を示したが、複数の外部端末(第1リモコン及び第2リモコン)それぞれマイクを設けて各リモコンから複数の音声を記録再生装置本体100に伝送するようにしてもよい。 In the above-described embodiment, an example in which the microphones 24, 81, etc. are provided in the main body 100 of the recording/reproducing device and the remote controller 20 is shown, but a plurality of external terminals (first remote controller and second remote controller) are each provided with a microphone. A plurality of sounds may be transmitted from the remote controller to the recording/reproducing apparatus main body 100 .

すなわち、第1リモコンのマイクにより集音された第1音声と、第2リモコンのマイクにより集音された第2音声とを記録再生装置本体100が取得し、記録再生装置本体100内部で予め設定した条件に合致する音声を選択して音声認識処理に利用するよう構成してもよい。 That is, the recording/reproducing apparatus main body 100 acquires the first sound collected by the microphone of the first remote controller and the second sound collected by the microphone of the second remote controller, and presets the sound in the recording/reproducing apparatus main body 100. A configuration may be adopted in which voices that meet the conditions are selected and used for voice recognition processing.

本発明の実施形態を説明したが、この実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。この新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。上記実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。 While embodiments of the invention have been described, the embodiments have been presented by way of example and are not intended to limit the scope of the invention. This novel embodiment can be embodied in various other forms, and various omissions, replacements, and modifications can be made without departing from the scope of the invention. The above-described embodiments and modifications thereof are included in the scope and gist of the invention, and are included in the scope of the invention described in the claims and equivalents thereof.

また上記実施形態に示した記録再生装置1の各構成要素を、コンピュータのハードディスク装置などのストレージにインストールしたプログラムで実現してもよく、また上記プログラムを、コンピュータ読取可能な電子媒体:electronic mediaに記憶しておき、プログラムを電子媒体からコンピュータに読み取らせることで本発明の機能をコンピュータが実現するようにしてもよい。 Further, each component of the recording/reproducing apparatus 1 shown in the above embodiment may be realized by a program installed in a storage such as a hard disk device of a computer, and the above program may be stored on a computer-readable electronic medium: electronic media. The functions of the present invention may be realized by the computer by storing the program and causing the computer to read the program from the electronic medium.

電子媒体としては、例えばCD-ROM等の記録媒体やフラッシュメモリ、リムーバブルメディア:Removable media等が含まれる。さらに、ネットワークを介して接続した異なるコンピュータに構成要素を分散して記憶し、各構成要素を機能させたコンピュータ間で通信することで実現してもよい。 Examples of electronic media include recording media such as CD-ROMs, flash memories, removable media, and the like. Furthermore, it may be realized by distributing and storing the constituent elements in different computers connected via a network, and by communicating between the computers that operate each constituent element.

1…記録再生装置、14…映像表示部、15…スピーカ、16…操作部、18…IR受信部、19…BT通信部、20…リモートコントローラ(リモコン)、21…ボタン、21a…設定ボタン、21b…ボイスボタン、22…信号処理部、23…IR送信部、24…マイク、25…音声処理部、26…BT通信部、50…アンテナ、51…チューナ、52…OFDM復調器、53…信号処理部、58…グラフィック処理部、59…音声処理部、61…OSD信号生成部、62…映像処理部、64…入力音声処理部、65…制御モジュール、68…フラッシュメモリ、69…設定部、70…録音部、71…音声認識部、72…制御部、73…通信インターフェース(通信 I/F)、76…USBインターフェース(USB I/F)、81…本体マイク、100…記録再生装置本体、101、102…ハードディスクドライブ(HDD)、200、201…サーバ、NTW…ネットワーク。 DESCRIPTION OF SYMBOLS 1... Recording/reproducing apparatus 14... Video display part 15... Speaker 16... Operation part 18... IR receiving part 19... BT communication part 20... Remote controller (remote controller) 21... Button 21a... Setting button, 21b voice button 22 signal processing unit 23 IR transmission unit 24 microphone 25 audio processing unit 26 BT communication unit 50 antenna 51 tuner 52 OFDM demodulator 53 signal Processing unit 58 Graphic processing unit 59 Audio processing unit 61 OSD signal generation unit 62 Video processing unit 64 Input audio processing unit 65 Control module 68 Flash memory 69 Setting unit 70... Recording unit, 71... Voice recognition unit, 72... Control unit, 73... Communication interface (communication I/F), 76... USB interface (USB I/F), 81... Main unit microphone, 100... Recording/reproducing apparatus main unit, 101, 102... Hard disk drive (HDD), 200, 201... Server, NTW... Network.

Claims (6)

自己の周囲の第1音声を収集する第1集音部を有する外部端末と無線接続または有線接続される電子機器であって、
前記外部端末の前記第1集音部が収集した第1音声を前記外部端末から取得する第1音声取得部と、
自己の周囲の第2音声を収集する第2集音部と、
前記第2集音部により収集された第2音声を取得する第2音声取得部と、
入力される音声を音声認識処理する音声認識部と、
前記第1音声および前記第2音声のうち予め設定された条件に合致する音声を前記音声認識部へ入力し音声認識処理させる制御部と、を具備し、
前記条件が、「音圧および区分した周波数帯毎に信号対雑音比と該周波数帯別の明瞭度への寄与率を示す係数とから求めた前記周波数帯別の明瞭度指数の総和に基づいて求められる音声認識率の高い方の音声を使用する」という条件であり、
前記制御部は、
前記第1音声及び前記第2音声のうち、前記音声認識率の高い方の音声を前記音声認識部に音声認識処理させる、電子機器。
An electronic device wirelessly or wiredly connected to an external terminal having a first sound collecting unit that collects a first sound around the electronic device,
a first sound acquiring unit that acquires from the external terminal a first sound collected by the first sound collecting unit of the external terminal;
a second sound collecting unit that collects a second sound around the self;
a second sound acquisition unit that acquires the second sound collected by the second sound collection unit;
a speech recognition unit that performs speech recognition processing on input speech;
a control unit for inputting, to the speech recognition unit, a speech that matches a preset condition out of the first speech and the second speech, and performing speech recognition processing;
The condition is "based on the sum of the clarity index for each frequency band obtained from the sound pressure and the signal-to-noise ratio for each divided frequency band and the coefficient indicating the contribution rate to the clarity for each frequency band. Use the voice with the higher required voice recognition rate."
The control unit
An electronic device that causes the speech recognition unit to perform speech recognition processing on one of the first speech and the second speech that has a higher speech recognition rate.
前記第1音声取得部により取得された前記第1音声及び前記第2音声取得部により取得された前記第2音声を録音する録音部を備え、
前記制御部は、
前記録音部により録音された前記第1音声及び前記第2音声のうち前記条件に合致する音声を前記音声認識部に認識させる請求項1記載の電子機器。
a recording unit that records the first sound acquired by the first sound acquisition unit and the second sound acquired by the second sound acquisition unit;
The control unit
2. The electronic device according to claim 1, wherein the voice recognition unit recognizes the voice that matches the condition among the first voice and the second voice recorded by the recording unit.
前記外部端末から送信される指示信号を受信する受信部を備え、
前記録音部は、前記受信部により前記外部端末からの特定の指示信号が受信された場合、前記外部端末から得られた前記第1音声を録音することを特徴とする請求項2記載の電子機器。
A receiving unit that receives an instruction signal transmitted from the external terminal,
3. The electronic device according to claim 2, wherein the recording unit records the first voice obtained from the external terminal when the receiving unit receives a specific instruction signal from the external terminal. .
自己の周囲の第1音声を収集する第1集音部を有する外部端末と無線接続または有線接続される電子機器であって、
前記外部端末の前記第1集音部が収集した第1音声を前記外部端末から取得する第1音声取得部と、
自己の周囲の第2音声を収集する第2集音部と、
前記第2集音部により収集された第2音声を取得する第2音声取得部と、
入力される音声を音声認識処理する音声認識部と、
前記第1音声および前記第2音声のうち予め設定された条件に合致する音声を前記音声認識部へ入力し音声認識処理させる制御部と、を具備し、
前記条件が、「区分した周波数帯毎に信号対雑音比と該周波数帯別の明瞭度への寄与率を示す係数とから求めた前記周波数帯別の明瞭度指数の総和に基づいて求められる音声認識率の高い方の音声を使用する」という条件であり、
前記制御部は、
前記第1音声及び前記第2音声のうち、前記音声認識率の高い方の音声を前記音声認識部に音声認識処理させる、電子機器。
An electronic device wirelessly or wiredly connected to an external terminal having a first sound collecting unit that collects a first sound around the electronic device,
a first sound acquiring unit that acquires from the external terminal a first sound collected by the first sound collecting unit of the external terminal;
a second sound collecting unit that collects a second sound around the self;
a second sound acquisition unit that acquires the second sound collected by the second sound collection unit;
a speech recognition unit that performs speech recognition processing on input speech;
a control unit for inputting, to the speech recognition unit, a speech that matches a preset condition out of the first speech and the second speech, and performing speech recognition processing;
The condition is "Speech obtained based on the sum of the clarity index for each frequency band obtained from the signal-to-noise ratio for each divided frequency band and the coefficient indicating the contribution rate to the clarity for each frequency band. Use the voice with the higher recognition rate"
The control unit
An electronic device that causes the speech recognition unit to perform speech recognition processing on one of the first speech and the second speech that has a higher speech recognition rate.
自己の周囲の第1音声を収集する第1集音部を有する外部端末と無線接続または有線接続される電子機器を動作させるプログラムであって、
前記電子機器を、
前記外部端末の前記第1集音部が収集した第1音声を前記外部端末から取得する第1音声取得部と、
前記電子機器に設けた第2集音部により前記第2集音部の周囲から収集された第2音声を取得する第2音声取得部と、
入力される音声を音声認識処理する音声認識部と、
前記第1音声および前記第2音声のうち予め設定された条件に合致する音声を前記音声認識部へ入力し音声認識処理させる制御部
として機能させ、
前記条件が、「音圧および区分した周波数帯毎に信号対雑音比と該周波数帯別の明瞭度への寄与率を示す係数とから求めた前記周波数帯別の明瞭度指数の総和に基づいて求められる音声認識率の高い方の音声を使用する」という条件であり、
前記制御部は、
前記第1音声及び前記第2音声のうち、前記音声認識率の高い方の音声を前記音声認識部に音声認識処理させる、
ことを特徴とするプログラム。
A program for operating an electronic device wirelessly or wiredly connected to an external terminal having a first sound collecting unit that collects a first sound around itself,
the electronic device,
a first sound acquiring unit that acquires from the external terminal a first sound collected by the first sound collecting unit of the external terminal;
a second sound acquisition unit that acquires a second sound collected from around the second sound collection unit by a second sound collection unit provided in the electronic device;
a speech recognition unit that performs speech recognition processing on input speech;
Functioning as a control unit for inputting a sound that matches a preset condition out of the first sound and the second sound to the voice recognition unit and performing voice recognition processing;
The condition is "based on the sum of the clarity index for each frequency band obtained from the sound pressure and the signal-to-noise ratio for each divided frequency band and the coefficient indicating the contribution rate to the clarity for each frequency band. Use the voice with the higher required voice recognition rate."
The control unit
causing the speech recognition unit to perform speech recognition processing on the speech with the higher speech recognition rate out of the first speech and the second speech;
A program characterized by
自己の周囲の第1音声を収集する第1集音部を有する外部端末と無線接続または有線接続される電子機器における音声認識方法であって、
前記外部端末の前記第1集音部が収集した第1音声を前記外部端末から取得し、
前記電子機器に設けた第2集音部により前記第2集音部の周囲から収集された第2音声を取得し、
前記第1音声および前記第2音声のうち予め設定された条件に合致する音声を音声認識処理し、
前記条件が、「音圧および区分した周波数帯毎に信号対雑音比と該周波数帯別の明瞭度への寄与率を示す係数とから求めた前記周波数帯別の明瞭度指数の総和に基づいて求められる音声認識率の高い方の音声を使用する」という条件であり、
前記音声認識処理は、
前記第1音声及び前記第2音声のうち、前記音声認識率の高い方の音声を音声認識処理すること、
を特徴とする音声認識方法。
A speech recognition method in an electronic device wirelessly or wiredly connected to an external terminal having a first sound collecting unit that collects a first sound around the self,
acquiring from the external terminal a first sound collected by the first sound collecting unit of the external terminal;
Acquiring a second sound collected from around the second sound collecting unit by a second sound collecting unit provided in the electronic device,
performing voice recognition processing on a voice that matches a preset condition among the first voice and the second voice;
The condition is "based on the sum of the clarity index for each frequency band obtained from the sound pressure and the signal-to-noise ratio for each divided frequency band and the coefficient indicating the contribution rate to the clarity for each frequency band. Use the voice with the higher required voice recognition rate."
The speech recognition processing includes:
voice recognition processing of the voice with the higher voice recognition rate out of the first voice and the second voice;
A speech recognition method characterized by:
JP2019129339A 2019-07-11 2019-07-11 Electronic devices, programs and speech recognition methods Active JP7216621B2 (en)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2019129339A JP7216621B2 (en) 2019-07-11 2019-07-11 Electronic devices, programs and speech recognition methods
CN202080002706.5A CN112243588B (en) 2019-07-11 2020-07-09 Electronic device, nonvolatile storage medium, and voice recognition method
PCT/CN2020/101150 WO2021004511A1 (en) 2019-07-11 2020-07-09 Electronic device, non-volatile storage medium, and voice recognition method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019129339A JP7216621B2 (en) 2019-07-11 2019-07-11 Electronic devices, programs and speech recognition methods

Publications (2)

Publication Number Publication Date
JP2021015180A JP2021015180A (en) 2021-02-12
JP7216621B2 true JP7216621B2 (en) 2023-02-01

Family

ID=74114403

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019129339A Active JP7216621B2 (en) 2019-07-11 2019-07-11 Electronic devices, programs and speech recognition methods

Country Status (3)

Country Link
JP (1) JP7216621B2 (en)
CN (1) CN112243588B (en)
WO (1) WO2021004511A1 (en)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001222291A (en) 2000-02-08 2001-08-17 Kenwood Corp Controller using voice recognition device
JP2002304192A (en) 2001-04-05 2002-10-18 Denso Corp Voice recognition device
JP2004505327A (en) 2000-07-28 2004-02-19 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ A system for controlling devices with voice commands
JP2011118822A (en) 2009-12-07 2011-06-16 Nec Casio Mobile Communications Ltd Electronic apparatus, speech detecting device, voice recognition operation system, and voice recognition operation method and program
JP2012047924A (en) 2010-08-26 2012-03-08 Sony Corp Information processing device and information processing method, and program
JP2013140349A (en) 2011-12-30 2013-07-18 Samsung Electronics Co Ltd Electronic apparatus and method of controlling the same
CN108600810A (en) 2018-05-03 2018-09-28 四川长虹电器股份有限公司 The television system and method for precision of identifying speech are improved using voice remote controller

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03284589A (en) * 1990-03-30 1991-12-16 Toshiba Corp Voice register device of elevator
KR102091236B1 (en) * 2012-09-28 2020-03-18 삼성전자 주식회사 Electronic apparatus and control method of the same
CN103594088A (en) * 2013-11-11 2014-02-19 联想(北京)有限公司 Information processing method and electronic equipment
KR102471499B1 (en) * 2016-07-05 2022-11-28 삼성전자주식회사 Image Processing Apparatus and Driving Method Thereof, and Computer Readable Recording Medium
CN109542386B (en) * 2017-09-22 2022-05-06 卡西欧计算机株式会社 Recording device
CN109767766A (en) * 2019-01-23 2019-05-17 海信集团有限公司 A kind of audio recognition method and device

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001222291A (en) 2000-02-08 2001-08-17 Kenwood Corp Controller using voice recognition device
JP2004505327A (en) 2000-07-28 2004-02-19 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ A system for controlling devices with voice commands
JP2002304192A (en) 2001-04-05 2002-10-18 Denso Corp Voice recognition device
JP2011118822A (en) 2009-12-07 2011-06-16 Nec Casio Mobile Communications Ltd Electronic apparatus, speech detecting device, voice recognition operation system, and voice recognition operation method and program
JP2012047924A (en) 2010-08-26 2012-03-08 Sony Corp Information processing device and information processing method, and program
JP2013140349A (en) 2011-12-30 2013-07-18 Samsung Electronics Co Ltd Electronic apparatus and method of controlling the same
CN108600810A (en) 2018-05-03 2018-09-28 四川长虹电器股份有限公司 The television system and method for precision of identifying speech are improved using voice remote controller

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
清水泰博 他,"空間音響特性を考慮したスペースダイバーシチ型ロバスト音声認識",電子情報通信学会論文誌,2000年11月25日,Vol.J83-D-II, No.111,pp.2448-2456

Also Published As

Publication number Publication date
WO2021004511A1 (en) 2021-01-14
CN112243588A (en) 2021-01-19
JP2021015180A (en) 2021-02-12
CN112243588B (en) 2022-07-26

Similar Documents

Publication Publication Date Title
US11270704B2 (en) Voice enabled media presentation systems and methods
US10957323B2 (en) Image display apparatus and method of controlling the same
USRE49493E1 (en) Display apparatus, electronic device, interactive system, and controlling methods thereof
JP2019153314A (en) Picture processing device, control method of the same, and picture processing system
CN104904227A (en) Display apparatus and method for controlling the same
CN103516854A (en) Terminal apparatus and control method thereof
KR20140087717A (en) Display apparatus and controlling method thereof
JP2012100309A (en) Method and apparatus for voice control of device associated with consumer electronics
KR102454761B1 (en) Method for operating an apparatus for displaying image
CN103517094A (en) Server and method of controlling the same
US7940338B2 (en) Voice-controlled TV set
US11700428B2 (en) Systems and methods for providing media based on a detected language being spoken
CN103763597A (en) Remote control method for control equipment and device thereof
JP7216621B2 (en) Electronic devices, programs and speech recognition methods
JP2016206646A (en) Voice reproduction method, voice interactive device, and voice interactive program
JP7301663B2 (en) ELECTRONIC DEVICE WITH NOTIFICATION FUNCTION AND METHOD OF CONTROLLING ELECTRONIC DEVICE
WO2021004309A1 (en) Electronic device and search service selection method
JP2005065156A (en) Audio recognition processing system and video signal recording and reproducing apparatus to be used therefor
WO2019123785A1 (en) Information processing device, information processing method, and program
JP2022112292A (en) Voice command processing circuit, reception device, server, system, method, and program
KR20150082083A (en) Display apparatus and control method thereof
JP2015038659A (en) Output device

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210426

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220117

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220201

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220316

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220719

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220920

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230117

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230120

R150 Certificate of patent or registration of utility model

Ref document number: 7216621

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150