JP6090027B2 - Voice command compatible information terminal with specific sound - Google Patents

Voice command compatible information terminal with specific sound Download PDF

Info

Publication number
JP6090027B2
JP6090027B2 JP2013151448A JP2013151448A JP6090027B2 JP 6090027 B2 JP6090027 B2 JP 6090027B2 JP 2013151448 A JP2013151448 A JP 2013151448A JP 2013151448 A JP2013151448 A JP 2013151448A JP 6090027 B2 JP6090027 B2 JP 6090027B2
Authority
JP
Japan
Prior art keywords
specific
voice
information terminal
command
terminal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2013151448A
Other languages
Japanese (ja)
Other versions
JP2015023485A5 (en
JP2015023485A (en
Inventor
勝彦 井川
勝彦 井川
Original Assignee
株式会社ナカヨ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社ナカヨ filed Critical 株式会社ナカヨ
Priority to JP2013151448A priority Critical patent/JP6090027B2/en
Publication of JP2015023485A publication Critical patent/JP2015023485A/en
Publication of JP2015023485A5 publication Critical patent/JP2015023485A5/ja
Application granted granted Critical
Publication of JP6090027B2 publication Critical patent/JP6090027B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Telephone Function (AREA)
  • Telephonic Communication Services (AREA)

Description

本発明は、情報端末に関し、音声コマンドにより、情報端末の自動制御を行う技術に関する。   The present invention relates to an information terminal, and more particularly to a technique for performing automatic control of an information terminal using a voice command.

従来、電話着信の応答処理を手操作で行っていたため、誤操作をしてしまうという問題がある。電話着信の代理応答処理を自動的に行う技術として、例えば特許文献1には、通話中に電話機のハンドセットから手を離した場合、自動的に電話機を保留するといった技術が開示されている。   Conventionally, since the incoming call response processing has been performed manually, there is a problem of erroneous operation. As a technology for automatically performing proxy response processing for incoming calls, for example, Patent Document 1 discloses a technology in which a telephone is automatically put on hold when a hand is released from the telephone handset during a call.

特開平5−327838号公報JP-A-5-327838

しかしながら、特許文献1の技術は、通話を保留にしたくない場合であっても電話機のハンドセットから手が離れたことを誤検知してしまうことにより、保留されることがある。本発明は、上記課題に鑑みてなされたものであり、その目的は音声コマンド前後の会話の内容により話相手との通話から電話の代理応答処理を自動的に行う技術を提供することである。 However, the technique of Patent Document 1 may be put on hold by erroneously detecting that the hand has left the handset of the telephone even if it is not desired to put the call on hold. The present invention has been made in view of the above problems, and its object is to provide a automatically performing techniques proxy response processing of the telephone from the call between the conversational partner on the contents of the conversation around voice command is there.

本発明は上記課題を解決するために、音声コマンドにより所定の動作を実行する情報端末であって、音声コマンドの先頭のユーザが発する特定音声を登録する特定音声登録手段と、自端末に入力する音声から前記特定音声を検出する特定音声検出手段と、前記検出した特定音声に続く一連の特定音声信号を抽出する特定音声信号抽出手段と、前記抽出した特定音声信号を所定のサーバへ送信する特定音声信号送信手段と、前記送信した特定音声信号に対応する処理結果データを受信する処理結果受信手段と、前記受信した処理結果データを解析し自端末の動作に係るコマンドを判定するコマンド判定手段と、前記判定したコマンドに応じて自端末の動作を制御する端末制御手段と、を有することを特徴とする。 In order to solve the above-mentioned problems, the present invention is an information terminal that performs a predetermined operation by a voice command, and that is input to the own terminal with specific voice registration means for registering a specific voice uttered by the user at the head of the voice command Specific voice detecting means for detecting the specific voice from voice, specific voice signal extracting means for extracting a series of specific voice signals following the detected specific voice, and specification for transmitting the extracted specific voice signal to a predetermined server Audio signal transmitting means, processing result receiving means for receiving the processing result data corresponding to the transmitted specific voice signal, command determining means for analyzing the received processing result data and determining a command related to the operation of the terminal. , characterized by having a a terminal control means for controlling the operation of the terminal in response to the determination command.

本発明によれば、ユーザが発した音声による音声コマンドで自端末の操作を行うので、手入力または手操作による誤操作を防止するという効果がある。   According to the present invention, since the operation of the terminal is performed by a voice command by a voice uttered by the user, there is an effect of preventing an erroneous operation due to manual input or manual operation.

図1は、本発明の一実施の形態に係る音声コマンド対応情報端末システムの概略構成図である。FIG. 1 is a schematic configuration diagram of a voice command compatible information terminal system according to an embodiment of the present invention. 図2は、情報端末1の概略機能構成図である。FIG. 2 is a schematic functional configuration diagram of the information terminal 1. 図3は、特定音声記憶部10の登録内容例を模式的に表した図である。Figure 3 is a diagram schematically illustrating an example of registration content of a particular voice storage unit 10 4. 図4は、処理内容記憶部111の登録内容例を模式的に表した図である。Figure 4 is a diagram schematically showing a registration content example of the processing content storage unit 1 11. 図5は、本実施の形態に係る情報端末の動作例を説明するためのシーケンス図である。FIG. 5 is a sequence diagram for explaining an operation example of the information terminal according to the present embodiment. 図6は、情報端末1の特定音声登録動作を説明するためのフロー図である。FIG. 6 is a flowchart for explaining the specific voice registration operation of the information terminal 1. 図7は、情報端末1の音声による端末制御動作を説明するためのフロー図である。FIG. 7 is a flowchart for explaining the terminal control operation by the voice of the information terminal 1.

以下に、本発明の一実施形態について説明する。   Hereinafter, an embodiment of the present invention will be described.

図1は、本実施の形態に係る音声コマンド対応情報端末システムの概略構成図である。図示するように、本実施の形態に係る音声コマンド対応情報端末システムは、ネットワーク2に接続する情報端末1と、音声認識サーバ3と、情報端末4とから構成される。 FIG. 1 is a schematic configuration diagram of a voice command compatible information terminal system according to the present embodiment. As shown in the figure, the voice command compatible information terminal system according to the present embodiment includes an information terminal 1 connected to a network 2, a voice recognition server 3, and an information terminal 4 .

情報端末1は、ネットワーク2を介して音声認識サーバ3に接続する。情報端末1は、電話機能を有する。
情報端末4は電話機能を有し、ネットワーク2を介して情報端末1と接続する。
The information terminal 1 is connected to the voice recognition server 3 via the network 2. The information terminal 1 has a telephone function.
The information terminal 4 has a telephone function and is connected to the information terminal 1 via the network 2.

音声認識サーバ3は、音声信号をテキスト変換する機能を有する。 The voice recognition server 3 has a function of converting voice signals into text.

図2は、情報端末1の概略機能構成図である。   FIG. 2 is a schematic functional configuration diagram of the information terminal 1.

情報端末1は、通信制御部101、マンマシンインタフェース部102、端末制御部103、特定音声記憶部104、特定音声信号抽出部105、特定音声検索部106、音声認識サーバ送信部107、テキスト受信部108、操作キーワード抽出部109、処理内容判定部110、処理内容記憶部111、呼制御部112から構成される。   The information terminal 1 includes a communication control unit 101, a man-machine interface unit 102, a terminal control unit 103, a specific voice storage unit 104, a specific voice signal extraction unit 105, a specific voice search unit 106, a voice recognition server transmission unit 107, and a text reception unit. 108, an operation keyword extraction unit 109, a processing content determination unit 110, a processing content storage unit 111, and a call control unit 112.

通信制御部101は、ネットワーク2と接続するための接続インタフェースならびにネットワーク2と情報端末1の通信制御全般を行う。通信制御部101は、音声認識サーバ送信部107から送信された特定音声信号を音声認識サーバ3に送信し、音声認識サーバ3より受信したテキスト情報をテキスト受信部108に渡す。   The communication control unit 101 performs a connection interface for connecting to the network 2 and overall communication control between the network 2 and the information terminal 1. The communication control unit 101 transmits the specific voice signal transmitted from the voice recognition server transmission unit 107 to the voice recognition server 3, and passes the text information received from the voice recognition server 3 to the text reception unit 108.

尚ここで、特定音声信号とは、後述の特定音声の後に続き、無音を検知するまでの音声信号を意味する。 Here, the specific sound signal means a sound signal that follows a specific sound described later and continues until silence is detected.

マンマシンインタフェース部102は、ユーザが通話するためのマイク・スピーカを備えた受話器、およびユーザからの入力操作を受付けるダイヤルキー、ユーザへ情報を表示するLCD・LED等のユーザインターフェースである。マンマシンインタフェース部102は、ユーザからの音声を受信すると、端末制御部103へ渡す。マンマシンインタフェース部102は、ユーザから発信操作に係るボタン入力操作を受けると、端末制御部103へボタン入力情報を渡す。マンマシンインタフェース部102は、端末制御部103からの指示に応じて鳴動等の呼接続に係る表示処理、通話音声出力を行う。マンマシンインタフェース部102は、ユーザから特定音声登録開始作が行われた場合、特定音声登録処理を開始し、ユーザから特定音声を受信すると、特定音声を端末制御部103へ渡す。 The man-machine interface unit 102 is a user interface such as a receiver having a microphone / speaker for a user to talk, a dial key for receiving an input operation from the user, and an LCD / LED for displaying information to the user. When receiving the voice from the user, the man-machine interface unit 102 passes it to the terminal control unit 103. When the man-machine interface unit 102 receives a button input operation related to a call origination operation from the user, the man-machine interface unit 102 passes the button input information to the terminal control unit 103. In response to an instruction from the terminal control unit 103, the man-machine interface unit 102 performs display processing related to call connection such as ringing and voice communication output. Man-machine interface unit 102, if a particular voice registration start operation has been performed by the user, initiates a particular voice registration process, when receiving a specific audio from a user and passes the specific sound to the terminal control unit 103.

尚ここで、特定音声とは、特定音声信号の取得開始を指示する音声コマンドを意味する。   Here, the specific voice means a voice command instructing to start acquisition of a specific voice signal.

端末制御部103は、マンマシンインタフェース部102からユーザからの音声を受け取った場合、特定音声信号抽出部105と呼制御部112へ渡す。端末制御部103は、マンマシンインタフェース部102からボタン入力情報を受け取った場合、ボタン入力情報から呼接続指示情報を判定し、判定した呼接続指示情報を呼制御部112へ渡す。端末制御部103は、呼制御部112から保留、転送、発信それぞれの場合に関わる処理命令を受け取り、受け取った処理命令から鳴動等の呼接続に係る表示処理、通話音声出力の指示の内容を判定し、判定した指示内容をマンマシンインタフェース部102へ渡す。端末制御部103は、マンマシンインタフェース部102で特定音声登録処理が開始されて受信された特定音声を受け取り、受け取った特定音声を特定音声記憶部104へ渡す。 When the terminal control unit 103 receives a voice from the user from the man-machine interface unit 102, the terminal control unit 103 passes the voice to the specific voice signal extraction unit 105 and the call control unit 112. When the terminal control unit 103 receives button input information from the man-machine interface unit 102, the terminal control unit 103 determines call connection instruction information from the button input information, and passes the determined call connection instruction information to the call control unit 112. The terminal control unit 103 receives a processing command related to each of the hold, transfer, and outgoing cases from the call control unit 112, and determines the content of the display processing related to the call connection such as ringing and the voice output instruction from the received processing command Then, the determined instruction content is passed to the man-machine interface unit 102. The terminal control unit 103 receives the specific voice received when the man-machine interface unit 102 starts the specific voice registration process, and passes the received specific voice to the specific voice storage unit 104.

特定音声記憶部104は、端末制御部103から受け取った特定音声を特定音声記憶テーブル100に登録する。 The specific voice storage unit 104 registers the specific voice received from the terminal control unit 103 in the specific voice storage table 10 40 .

図3は、特定音声記憶部104の登録内容例を模式的に表した図である。   FIG. 3 is a diagram schematically illustrating an example of registered contents in the specific voice storage unit 104.

図示するように、特定音声記憶部104には、特定音声記憶テーブル1040が記憶されている。特定音声記憶テーブル1040は対象の特定音声毎に、音声認識サーバに送る特定音声信号のレコード1043が登録されている。レコード1043は、登録された特定音声を記憶しているフィールド1041と、音声認識サーバに送る特定音声信号の取得範囲情報を示しているフィールド1042と、を有する。 As shown in the figure, the specific voice storage unit 104 stores a specific voice storage table 1040 . In the specific voice storage table 1040, a record 1043 of a specific voice signal to be sent to the voice recognition server is registered for each target specific voice. The record 1043 has a field 1041 that stores the registered specific voice, and a field 1042 that indicates acquisition range information of the specific voice signal to be sent to the voice recognition server.

特定音声信号抽出部105は、端末制御部103から送られた音声を、特定音声検索部106に特定音声検索を要求する。特定音声信号抽出部105は、特定音声検索部106から検索結果を受け取ると、検索結果が特定音声であった場合に、当該特定音声の後に続く音声を特定音声信号として音声認識サーバ送信部107に送る。   The specific voice signal extraction unit 105 requests the specific voice search unit 106 to perform a specific voice search for the voice sent from the terminal control unit 103. When the specific voice signal extraction unit 105 receives the search result from the specific voice search unit 106, if the search result is the specific voice, the voice following the specific voice is sent to the voice recognition server transmission unit 107 as the specific voice signal. send.

特定音声検索部106は、特定音声信号抽出部105から特定音声検索が要求された場合、特定音声記憶部104の特定音声記憶テーブル1040を参照し、当該音声が登録された特定音声であるかどうか検索を行い、検索結果を特定音声信号抽出部105に渡す。 When a specific voice search is requested from the specific voice signal extraction unit 105, the specific voice search unit 106 refers to the specific voice storage table 1040 of the specific voice storage unit 104 and determines whether the voice is a registered specific voice. A search is performed, and the search result is passed to the specific audio signal extraction unit 105.

音声認識サーバ送信部107は、予め音声認識サーバ3のアドレス情報を記憶し、特定音声信号抽出部105から特定音声信号を受取ると、通信制御部101を介して音声認識サーバ3宛に当該特定音声信号を送信する。 Speech recognition server transmission unit 107 stores in advance the address information of the speech recognition server 3, when the specific sound signal takes accept from a particular audio signal extraction unit 105, the addressed speech recognition server 3 via the communication control section 101 A specific audio signal is transmitted.

テキスト受信部108は、予め音声認識サーバ3のアドレス情報を記憶し、通信制御部101を介して音声認識サーバ3から渡されたテキスト情報を受けると、操作キーワード抽出部109へ当該テキスト情報を渡す。 Text receiving unit 108 stores in advance the address information of the speech recognition server 3 and via the communication control unit 101 Ru preparative receives text information passed from the speech recognition server 3, the text information to the operation keyword extraction section 109 give.

操作キーワード抽出部109は、テキスト受信部108から受け取ったテキスト情報から操作キーワードを抽出し、抽出した操作キーワードを処理内容判定部110へ渡す。   The operation keyword extraction unit 109 extracts an operation keyword from the text information received from the text reception unit 108 and passes the extracted operation keyword to the processing content determination unit 110.

処理内容判定部110は、操作キーワード抽出部109から操作キーワードを受け取ると、処理内容記憶部111の処理内容判定テーブル1110を参照して、当該操作キーワードに対応する処理内容を検索する。検出した処理内容(保留、転送、発信)の理を呼制御部112に指示する。 When receiving the operation keyword from the operation keyword extraction unit 109, the process content determination unit 110 refers to the process content determination table 1110 of the process content storage unit 111 and searches for the process content corresponding to the operation keyword. Detected process content (hold, transfer, outbound) and instructs the processing of the call control unit 112.

処理内容記憶部111は、処理内容判定テーブル1110を記憶する。図4は、処理内容記憶部111の登録内容例を模式的に表した図である。 The processing content storage unit 111 stores a processing content determination table 1110 . FIG. 4 is a diagram schematically illustrating an example of registered content in the processing content storage unit 111.

図示するように、処理内容記憶部111には、処理内容判定テーブル1110が記憶されている。処理内容判定テーブル1110は対象の操作キーワード毎に、情報端末1が自動的に行う処理内容情報のレコード1113が登録されている。レコード1113は、抽出する操作キーワードを記憶しているフィールド1111と、情報端末1が自動的に行う処理内容を記憶しているフィールド1112と、を有する。 As illustrated, the processing content storage unit 111 stores a processing content determination table 1110 . In the processing content determination table 1110, a record 1113 of processing content information automatically performed by the information terminal 1 is registered for each target operation keyword. The record 1113 includes a field 1111 that stores an operation keyword to be extracted, and a field 1112 that stores the processing content automatically performed by the information terminal 1.

呼制御部112は、一般的な発信、着信、終話時の呼接続に係る処理全般ならびに通話中の音声処理全般を行う。呼制御部112は、処理内容判定部110からの指示にしたがい、処理を行う。呼制御部112は、端末制御部103に保留、転送、発信それぞれの場合に関わる処理命令を渡す。   The call control unit 112 performs general processing related to call connection at the time of general outgoing call, incoming call, and call termination, and overall voice processing during a call. The call control unit 112 performs processing according to an instruction from the processing content determination unit 110. The call control unit 112 passes to the terminal control unit 103 processing instructions relating to each of the hold, transfer, and outgoing cases.

図5は、本実施の形態に係る情報端末の動作例を説明するためのシーケンス図である。   FIG. 5 is a sequence diagram for explaining an operation example of the information terminal according to the present embodiment.

尚、本シーケンスは、情報端末1と情報端末との通話が確立し、通話中の状態から開始する。 Note that this sequence starts from a state in which a call between the information terminal 1 and the information terminal 4 is established and the call is in progress.

情報端末1は、通話中にユーザの音声を監視し、監視中の音声のなかから特定音声を検知すると(S101)、特定音声信号の取得を開始する(S102)。そして、情報端末1は、特定音声信号取得開始後、無音を3秒以上検知すると(S103)、特定音声信号の取得を終了する(S104)。それから、情報端末1は、特定音声信号取得終了後、取得した音声信号から特定音声信号を抽出する(S105)。そして、情報端末1は、特定音声信号抽出後、特定音声信号情報を音声認識サーバ3へ送信する(S106)。   The information terminal 1 monitors the user's voice during a call, and when a specific voice is detected from the monitored voice (S101), the information terminal 1 starts acquiring a specific voice signal (S102). When the information terminal 1 detects silence for 3 seconds or longer after the acquisition of the specific audio signal (S103), the information terminal 1 ends the acquisition of the specific audio signal (S104). Then, the information terminal 1 extracts the specific audio signal from the acquired audio signal after the acquisition of the specific audio signal is completed (S105). Then, after extracting the specific audio signal, the information terminal 1 transmits the specific audio signal information to the audio recognition server 3 (S106).

音声認識サーバ3は、特定音声信号情報を受信すると、受信した特定音声信号をテキスト変換する(S107)。そして、音声認識サーバ3は、特定音声信号をテキスト変換し、変換したテキスト情報を情報端末1へ送信する(S108)。   When the voice recognition server 3 receives the specific voice signal information, the voice recognition server 3 converts the received specific voice signal into text (S107). Then, the voice recognition server 3 converts the specific voice signal into text, and transmits the converted text information to the information terminal 1 (S108).

情報端末1は、テキスト情報を受信すると、受信したテキスト情報の中から操作キーワードを探索する(S109)。そして、情報端末1は、テキスト情報の中から操作キーワードを検出した場合に、対応する処理を実行する(尚、本実施例では、保留処理に係る操作キーワードを検出したものとする。)。情報端末1は、保留処理に係る操作キーワードを検出すると、自動的に保留処理を行う(S110)。 Upon receiving the text information, the information terminal 1 searches for an operation keyword from the received text information (S109). When the operation terminal is detected from the text information , the information terminal 1 executes a corresponding process (in this embodiment, it is assumed that the operation keyword related to the hold process is detected). When the information terminal 1 detects the operation keyword related to the hold process, the information terminal 1 automatically performs the hold process (S110).

図6は、情報端末1の特定音声登録動作を説明するためのフロー図である。本フローは、ユーザによって特定音声登録開始操作が実行された状態からスタートする。 FIG. 6 is a flowchart for explaining the specific voice registration operation of the information terminal 1. This flow starts from a state where the specific voice registration start operation is executed by the user.

マンマシンインタフェース部102は、特定音声登録処理を開始し(S201)、特定音声が入力されたか否か判定する(S202)。特定音声が入力されたならば(S202であり)、入力された音声を特定音声記憶部104へ渡し、入力されなければ(S202でなし)、特定音声登録動作を終了するThe man-machine interface unit 102 starts a specific voice registration process (S201), and determines whether or not a specific voice has been input (S202). If a particular sound is input (Yes in S202), it passes the voice input to a particular voice storage unit 104, to be entered (No at S202), and terminates the specific sound registration operation.

特定音声が入力された場合、特定音声記憶部104は、マンマシンインタフェース部102から入力された特定音声を受け取り、特定音声を登録する(S203)特定音声を登録後、特定音声登録動作を終了する。 When the specific voice is input, the specific voice storage unit 104 receives the specific voice input from the man-machine interface unit 102 and registers the specific voice (S203) . After registering the specific voice , the specific voice registration operation is terminated.

図7は、情報端末1の音声による端末制御動作を説明するためのフロー図である。   FIG. 7 is a flowchart for explaining the terminal control operation by the voice of the information terminal 1.

本フローは、情報端末1と情報端末4とが、通話中の状態から開始される。   This flow is started when the information terminal 1 and the information terminal 4 are in a call.

特定音声信号抽出部105は、特定音声検索部106に特定音声検索を要求する。特定音声検索部106は、通話中の音声信号から特定音声を検知したかどうかの判定を行い(S301)、判定結果を特定音声信号抽出部105に渡す。特定音声信号抽出部105は、判定結果より、特定音声の検知が確認できれば(S301でYES)、特定音声信号の取得を開始し(S302)、検知が確認できなければ(S301でNO)、検知処理を続ける。   The specific voice signal extraction unit 105 requests the specific voice search unit 106 to perform a specific voice search. The specific voice search unit 106 determines whether a specific voice is detected from the voice signal during a call (S301), and passes the determination result to the specific voice signal extraction unit 105. The specific sound signal extraction unit 105 starts acquisition of the specific sound signal if the detection of the specific sound can be confirmed from the determination result (YES in S301) (S302), and if the detection is not confirmed (NO in S301), the detection is performed. Continue processing.

特定音声信号抽出部105は、特定音声信号取得処理を開始後(S302)、3秒以上の無音を検知したかどうかの判定を行い(S303)、検知が確認できれば(S303でYES)、特定音声信号取得処理を終了し(S304)、検知が確認できなければ(S303でNO)、検知処理を続ける。   The specific audio signal extraction unit 105 determines whether or not silence for 3 seconds or more has been detected after starting the specific audio signal acquisition process (S302). If the detection can be confirmed (YES in S303), the specific audio signal is extracted. The signal acquisition process ends (S304), and if the detection cannot be confirmed (NO in S303), the detection process is continued.

特定音声信号抽出部105は、特定音声信号取得処理を終了後(S304)、取得した特定音声信号を音声認識サーバ送信部107に渡す。   The specific audio signal extraction unit 105 passes the acquired specific audio signal to the voice recognition server transmission unit 107 after completing the specific audio signal acquisition process (S304).

音声認識サーバ送信部107は、検知した特定音声の後に続く特定音声信号を、通信制御部101を介して、音声認識サーバ3に送信する(S305)。   The voice recognition server transmission unit 107 transmits a specific voice signal following the detected specific voice to the voice recognition server 3 via the communication control unit 101 (S305).

テキスト受信部108は、音声認識サーバに送信後、30秒以内にテキスト情報を受信したかどうかの判定を行(S306)30秒以内にテキスト情報を受信した場合(S306でYES)、操作キーワード抽出部109にテキスト情報を渡し、操作キーワード抽出部109は、受信したテキスト情報から操作キーワードを抽出して、抽出した操作キーワードを処理内容判定部110に渡す。操作キーワードを渡された処理内容判定部110は渡された操作キーワードが「保留」である操作キーワードか否かを判定する(S307)。一方、30秒以内にテキスト情報を受信しなかった場合(S306でNO)ステップ301に戻る。 Text receiving unit 108, after transmitting to the voice recognition server, intends rows of determining whether the received text information within 30 seconds (S306). (In YES S306) is if the received text information within 30 seconds, passing the text information to the operator keyword extraction unit 109, the operation keyword extracting section 109 extracts the operation keyword from the received text information, extracted The operation keyword is passed to the processing content determination unit 110. The processing content determination unit 110 to which the operation keyword has been passed determines whether or not the passed operation keyword is an operation keyword that is “pending” (S307). On the other hand, (NO in S306) If you did not receive text information within 30 seconds, the process returns to step 301.

理内容判定部110は、抽出した操作キーワードが「保留」である場合(S307でYES)、呼制御部112に処理内容が「保留」であることを通知する。 Processing content determining unit 110, when the extracted operation keyword Ru der "pending" (YES in S307) notifies the processing contents to the call control unit 112 is "pending".

呼制御部112は、処理内容判定部110から受け取った「保留」という処理内容から自動的に保留処理を行い(S308)、処理終了後、ステップ301に戻る。 The call control unit 112 automatically performs hold processing from the processing content “hold” received from the processing content determination unit 110 (S308), and returns to step 301 after the processing is completed.

処理内容判定部110は、抽出した操作キーワードが「保留」でなかった場合(S307でNO)、受信したテキスト情報から操作キーワードが「発信」である判定を行い(S309)、操作キーワードが「発信」である合(S309でYES)、電話帳検索で該当する人物の電話番号が登録されているかの判定を行(S310) Processing content determination unit 110, when the extracted operation keyword was not a "hold" (NO in S307), a determination whether the operation keyword from the received text information is "transmission" (S309), Operation Keywords but if it is "outgoing" (YES in S309), the intends row a judgment of whether the corresponding phone number of the person is registered in the telephone directory search (S310).

処理内容判定部110は、抽出したキーワードが「発信」の場合、テキスト情報から発信先の相手の名前を読み取り、電話帳検索で該当する人物の電話番号が登録されているかを判定し、登録されていれば(S310でYES)、「発信」という処理内容と発信先の相手の電話番号を呼制御部109に渡し、登録されていなければ(S310でNO)、処理を終了し、ステップ301に戻る。 Processing content determining section 110, when the extracted keyword is "outgoing", it is determined whether to read the name of the other party from the text information, the telephone number of the appropriate person in the phone book search has been registered, it is registered If so (YES in S310), the processing content “calling” and the telephone number of the other party of the call destination are passed to the call control unit 109. If not registered (NO in S310), the process ends and the process goes to step 301 . Return.

呼制御部112は、処理内容判定部110から、「発信」という処理内容と発信先の相手の電話番号を受け取った場合、自動的に発信先の相手の電話番号のダイヤル入力を行い(S311)、入力された電話番号の相手へ通話する発信処理を行い(S312)、処理終了後、開始時に戻る。 The call control unit 112, the processing content determination unit 110, when receiving the telephone number of the processing content of "transmission" the other party is automatically destination telephone number dialing line physician partner ( (S311), a call process for calling the other party of the input telephone number is performed (S312), and the process returns to the start after the process is completed.

処理内容判定部110は、抽出したキーワードから「発信」という処理内容が判定できなかった場合(S309でNO)、受信したテキスト情報から抽出したキーワードが「転送」であるか否かの判定を行い(S313)、抽出したキーワードが「転送」である場合(S313でYES)電話帳検索で該当する人物の電話番号が登録されているかの判定を行い(S314)キーワードが抽出できなかった場合(S313でNO)、処理を終了し、ステップ301に戻る。 Processing content determination unit 110, when the processing content of "Call" can not be determined from the extracted keyword (NO in S309), the determination keyword extracted from the received text information is whether a "transfer" If carried out (S313), the extracted keyword is "transfer" (YES in S313), the phone book makes a determination of whether the corresponding phone number of the person is registered in the search (S314), it can not be extracted keywords and if (NO in S313) ends the process returns to step 301.

処理内容判定部110は、電話帳検索で該当する人物の電話番号が登録されているかを判定し、登録されていることが確認できれば(S314でYES)、「転送」理と転送先の相手の電話番号を呼制御部112に渡し、電話帳検索で該当する人物の電話番号が登録されていなければ(S314でNO)、処理を終了し、ステップ301に戻る。 Processing content determining section 110, Phonebook the corresponding telephone number of the person in the search, it is determined whether it is registered, if it can be confirmed to have been registered (YES in S314), the destination and the processing of the "transfer" of passing the phone number of the other party to the call controller 1 12, if no appropriate telephone number of the person is registered in the phonebook search (NO at S314), the process ends and returns to step 301.

呼制御部112は、処理内容判定部110から、「転送」理と転送先の相手の電話番号を受け取った場合、自動的に転送先の相手の電話番号のダイヤル入力を行い(S315)、入力された電話番号の相手へ転送処理を行い(S316)、処理終了後、ステップ301に戻る。 The call control unit 112, the processing content determination unit 110, when receiving the treatment and number of transfer recipient of "transfer" is performed automatically dialing the destination party telephone number (S315 ), the transfer process to the other of the input telephone number (S316), after the processing returns to step 301.

以上、本発明の一実施形態を説明した。   The embodiment of the present invention has been described above.

本実施の形態において、情報端末1はユーザからの通話音声の中から、特定音声を検知した場合、そのあとに続く特定音声信号を音声認識サーバ3に送信する。音声認識サーバ3は情報端末1から受信した特定音声信号をテキスト変換し、変換したテキスト情報を情報端末1へ送信する。情報端末1は、音声認識サーバ3からテキスト情報を受信後、テキスト情報から操作キーワードを抽出し、操作キーワードをもとに「保留」、「発信」、「転送」のそれぞれの操作を自動的に制御する。   In the present embodiment, when the information terminal 1 detects a specific voice from the call voice from the user, the information terminal 1 transmits a subsequent specific voice signal to the voice recognition server 3. The voice recognition server 3 converts the specific voice signal received from the information terminal 1 into text, and transmits the converted text information to the information terminal 1. After receiving the text information from the voice recognition server 3, the information terminal 1 extracts the operation keyword from the text information, and automatically performs “hold”, “call”, and “transfer” operations based on the operation keyword. Control.

したがって、本実施の形態によれば、情報端末1が音声による電話操作の自動制御をする場合、ユーザの手操作による誤操作を防止することができる。   Therefore, according to the present embodiment, when the information terminal 1 automatically controls the telephone operation by voice, it is possible to prevent an erroneous operation due to a user's manual operation.

また、本実施の形態において、情報端末1は、通話音声から特定音声を検知すると、特定音声信号取得を開始し、3秒以上の無音を検知すると、特定音声信号取得を終了する。   Moreover, in this Embodiment, the information terminal 1 will start acquisition of a specific audio | voice signal, if a specific audio | voice is detected from a telephone call voice, and will complete | finish acquisition of a specific audio | voice signal if the silence of 3 seconds or more is detected.

したがって、本実施の形態によれば、情報端末1が音声から特定音声信号を自動的に抽出することにより、音声による電話操作の自動制御を実現し、ユーザの手操作による誤操作を防止することができる。   Therefore, according to the present embodiment, the information terminal 1 automatically extracts the specific voice signal from the voice, thereby realizing the automatic control of the telephone operation by the voice and preventing the erroneous operation due to the manual operation of the user. it can.

また、本実施の形態において、情報端末1は、処理内容判定結果に応じて、鳴動等の呼接続に係る表示処理、通話音声出力を行い、キー入力を検知したならば、前記処理内容判定結果に応じて、自端末の動作を制御する。   Further, in the present embodiment, the information terminal 1 performs display processing related to call connection such as ringing and voice communication output according to the processing content determination result, and if the key input is detected, the processing content determination result. The operation of the own terminal is controlled according to the above.

したがって、本実施の形態によれば、情報端末1が処理内容判定結果に応じて自端末の制御を行うことにより、ユーザの手操作による誤操作を防止することができる。   Therefore, according to this Embodiment, the information terminal 1 can control the own terminal according to a processing content determination result, and can prevent the erroneous operation by a user's manual operation.

1、4:情報端末、2:ネットワーク、3:音声認識サーバ、101:通信制御部、102:マンマシンインタフェース部、103:端末制御部、104:特定音声記憶部、105:特定音声信号抽出部、106:特定音声検索部、107:音声認識サーバ送信部、108:テキスト受信部、109:操作キーワード抽出部、110:処理内容判定部、111:処理内容記憶部、112:呼制御部 1, 4: Information terminal, 2: Network, 3: Voice recognition server, 101: Communication control unit, 102: Man-machine interface unit, 103: Terminal control unit, 104: Specific voice storage unit, 105: Specific voice signal extraction unit , 106: specific voice search unit, 107: voice recognition server transmission unit, 108: text reception unit, 109: operation keyword extraction unit, 110: processing content determination unit, 111: processing content storage unit, 112: call control unit

Claims (3)

音声コマンドにより所定の動作を実行する情報端末であって、
音声コマンドの先頭のユーザが発する特定音声を登録する特定音声登録手段と、
自端末に入力する音声から前記特定音声を検出する特定音声検出手段と、
前記検出した特定音声に続く一連の特定音声信号を抽出する特定音声信号抽出手段と、
前記抽出した特定音声信号を所定のサーバへ送信する特定音声信号送信手段と、
前記送信した特定音声信号に対応する処理結果データを受信する処理結果受信手段と、
前記受信した処理結果データを解析し自端末の動作に係るコマンドを判定するコマンド判定手段と、
前記判定したコマンドに応じて自端末の動作を制御する端末制御手段と、
を有することを特徴とする特定音付き音声コマンド対応情報端末。
An information terminal that performs a predetermined operation by a voice command,
A specific voice registration means for registering a specific voice emitted by the user at the head of the voice command;
Specific voice detecting means for detecting the specific voice from voice input to the terminal;
Specific audio signal extracting means for extracting a series of specific audio signals following the detected specific audio;
Specific audio signal transmitting means for transmitting the extracted specific audio signal to a predetermined server;
Processing result receiving means for receiving processing result data corresponding to the transmitted specific audio signal;
Command determination means for analyzing the received processing result data and determining a command related to the operation of the terminal;
Terminal control means for controlling the operation of the terminal according to the determined command;
A voice command compatible information terminal with a specific sound.
請求項1に記載の情報端末であって、
前記特定音声信号抽出手段が出する特定音声に続く一連の特定音声信号は前記検出した特定音の後に一定時間以上の無音を検出するまでの音声信号であることを特徴とする特定音付き音声コマンド対応情報端末。
The information terminal according to claim 1,
With particular sound, wherein the specific set of speech signal following specific sound which the particular audio signal extracting means to extract is the audio signal to the detection of the silence over a certain time after a specific sound voices that the detected Voice command compatible information terminal.
請求項1または2に記載の情報端末であって、
前記コマンド判定手段が判定したコマンドを自端末が備える表示部に表示し、特定のキーまたは任意のキーの入力を監視し、前記キー入力を検知したならば、前記判定したコマンドに応じて自端末の動作を制御することを特徴とする特定音付き音声コマンド対応情報端末。
The information terminal according to claim 1 or 2,
The command determined by the command determination means is displayed on a display unit included in the terminal, monitors input of a specific key or an arbitrary key, and detects the key input, and then detects the key according to the determined command. A voice command compatible information terminal with a specific sound, characterized by controlling the operation of.
JP2013151448A 2013-07-22 2013-07-22 Voice command compatible information terminal with specific sound Expired - Fee Related JP6090027B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013151448A JP6090027B2 (en) 2013-07-22 2013-07-22 Voice command compatible information terminal with specific sound

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013151448A JP6090027B2 (en) 2013-07-22 2013-07-22 Voice command compatible information terminal with specific sound

Publications (3)

Publication Number Publication Date
JP2015023485A JP2015023485A (en) 2015-02-02
JP2015023485A5 JP2015023485A5 (en) 2016-05-19
JP6090027B2 true JP6090027B2 (en) 2017-03-08

Family

ID=52487575

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013151448A Expired - Fee Related JP6090027B2 (en) 2013-07-22 2013-07-22 Voice command compatible information terminal with specific sound

Country Status (1)

Country Link
JP (1) JP6090027B2 (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10055767B2 (en) * 2015-05-13 2018-08-21 Google Llc Speech recognition for keywords
JP6801539B2 (en) * 2017-03-17 2020-12-16 株式会社リコー Information processing system, information processing device, information processing program and information processing method
CN109523990B (en) * 2019-01-21 2021-11-05 未来电视有限公司 Voice detection method and device

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2348566A (en) * 1999-03-31 2000-10-04 Ibm Computer network telephony
JP2001268646A (en) * 2000-03-22 2001-09-28 Animo:Kk Portable radio communication device, tool server, voice authentication server, and radio communication system
JP2003163744A (en) * 2001-11-26 2003-06-06 Mitsubishi Electric Corp Telephone number managing system and method
JP2004096189A (en) * 2002-08-29 2004-03-25 Matsushita Electric Ind Co Ltd Telephone set
US7283850B2 (en) * 2004-10-12 2007-10-16 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement on a mobile device

Also Published As

Publication number Publication date
JP2015023485A (en) 2015-02-02

Similar Documents

Publication Publication Date Title
JP5588014B2 (en) Telephone hold mechanism
EP3920180A2 (en) Handling calls on a shared speech-enabled device
US9247037B2 (en) Methods and systems for touch-free call origination
US9247067B2 (en) Communications network call initiation transition
US8433041B2 (en) Method and system to enable touch-free incoming call handling and touch-free outgoing call origination
CN105491216A (en) Incoming call processing method and device, and terminal
US8498677B2 (en) Outgoing telephone call indication
JP6090027B2 (en) Voice command compatible information terminal with specific sound
JP2015023485A5 (en)
WO2007033459A1 (en) Method and system to enable touch-free incoming call handling and touch-free outgoing call origination
JP6456737B2 (en) Fraud damage warning device and program
JP5191638B2 (en) Voice communication apparatus and voice communication system
JP2013026779A (en) Communication terminal and communication method
CN111884886B (en) Intelligent household communication method and system based on telephone
WO2018058875A1 (en) Call switching method and system for terminal, terminal, and computer storage medium
JP6021663B2 (en) Method and system for confirming code in partner terminal simultaneously with establishment of voice call
CN103533159A (en) System for intelligentizing non-intelligentized telephone
JP2012065290A (en) Telephone switching system and telephone switching device
JP4583949B2 (en) The present invention relates to a three-party call system and a button telephone device.
TWM652189U (en) External voice switchboard system
TW201703492A (en) Real-time incoming call processing system and method using network in conjunction with extension phones capable of achieving real-time incoming call processing when the called party is not available for answering the call
TW201618521A (en) Method and system for answering incoming calls
JPH04286443A (en) Hold controller for telephone set
JPH11136354A (en) Sender depending communication responding device
KR20060042827A (en) Wireless communication terminal outputting schedule information at connecting calling signal

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160322

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160322

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20161130

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170110

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170123

R150 Certificate of patent or registration of utility model

Ref document number: 6090027

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees