JP7452652B2 - 音声操作装置、音声操作方法および音声操作プログラム - Google Patents

音声操作装置、音声操作方法および音声操作プログラム Download PDF

Info

Publication number
JP7452652B2
JP7452652B2 JP2022532931A JP2022532931A JP7452652B2 JP 7452652 B2 JP7452652 B2 JP 7452652B2 JP 2022532931 A JP2022532931 A JP 2022532931A JP 2022532931 A JP2022532931 A JP 2022532931A JP 7452652 B2 JP7452652 B2 JP 7452652B2
Authority
JP
Japan
Prior art keywords
command
voice
text data
unit
voice operation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022532931A
Other languages
English (en)
Other versions
JPWO2022003879A1 (ja
Inventor
英毅 小矢
真実 小宮山
明 片岡
将志 田所
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Publication of JPWO2022003879A1 publication Critical patent/JPWO2022003879A1/ja
Application granted granted Critical
Publication of JP7452652B2 publication Critical patent/JP7452652B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • User Interface Of Digital Computer (AREA)

Description

本発明は、音声操作装置、音声操作方法および音声操作プログラムに関する。
近年、音声認識や自然言語処理の飛躍的な向上により、VUI(Voice User Interface)が注目されている。例えばVUIは、音声による自宅の家電操作(Home Automation)や、運転中の車載機能の操作などに活用されている(特許文献1、非特許文献1、2参照)。
特開2017-87950号公報
"Windows音声認識コマンド"、[online]、Microsoft、[2020年5月8日検索]、インターネット<URL:https://support.microsoft.com/ja-jp/help/12427/windows-speech-recognition-commands> "Alexaで最新情報を聞いてみよう"、[online]、amazon、[2020年5月8日検索]、インターネット<URL:https://www.amazon.co.jp/b?ie=UTF8&node=4788676051>
しかしながら、従来の技術では、既存システムに任意の音声操作の機能を追加することが困難な場合がある。例えば、従来のVUIの多くは、既定の音声コマンドを呼び出すだけであり、ユーザの業務に合わせて独自の音声操作を行うためには、プログラムをハードコーディングする必要がある。また、発話したユーザの状況を考慮せずに、発話とアプリケーションが合致した音声コマンドを実行するだけである。そのため、異なる業務にはそれぞれ異なる音声コマンドを定義する必要があり、音声コマンドが乱立してしまう。
本発明は、上記に鑑みてなされたものであって、既存システムに任意の音声操作の機能を追加することを目的とする。
上述した課題を解決し、目的を達成するために、本発明に係る音声操作装置は、既存システムの操作状況に基づいて、操作中の処理種別を判定する業務判定部と、HID(Human Interface Device)の所定の操作中に入力された音声データをテキストデータに変換し、該HIDの操作内容に応じて、該テキストデータをコマンド判定または設定パラメータのいずれに用いるかを判定する変換部と、コマンド判定に用いると判定された場合に、前記テキストデータと前記操作中の処理種別とを用いて、コマンドを判定するコマンド判定部と、設定パラメータに用いると判定された場合に、前記テキストデータをパラメータとして用いて、判定された前記コマンドに対応した操作を前記既存システムに対して実行する操作部と、を備えることを特徴とする。
本発明によれば、既存システムに任意の音声操作の機能を追加することが可能となる。
図1は、本実施形態の音声操作装置の概略構成を例示する模式図である。 図2は、ルールのデータ構成を例示する図である。 図3は、ルールを説明するための図である。 図4は、キー操作設定を説明するための図である。 図5は、操作部の処理を説明するための図である。 図6は、音声操作処理手順を示すフローチャートである。 図7は、音声操作処理手順を示すフローチャートである。 図8は、音声操作処理手順を示すフローチャートである。 図9は、音声操作処理手順を示すフローチャートである。 図10は、音声操作処理手順を示すフローチャートである。 図11は、音声操作プログラムを実行するコンピュータの一例を示す図である。
以下、図面を参照して、本発明の一実施形態を詳細に説明する。なお、この実施形態により本発明が限定されるものではない。また、図面の記載において、同一部分には同一の符号を付して示している。
[音声操作装置の構成]
図1は、本実施形態の音声操作装置の概略構成を例示する模式図である。図1に例示するように、本実施形態の音声操作装置10は、パソコン等の汎用コンピュータで実現され、入力部11、出力部12、通信制御部13、記憶部14、および制御部15を備える。
入力部11は、キーボードやマウス、マイク等の入力デバイスを用いて実現され、操作者による入力操作に対応して、制御部15に対して処理開始などの各種指示情報を入力する。また、入力部11は、HID3を介して既存システム2を操作するユーザの音声を入力する。
出力部12は、液晶ディスプレイなどの表示装置、プリンター等の印刷装置等によって実現される。例えば、出力部12は、後述する音声操作処理において、ユーザの発話を変換したテキストデータ等を表示する。
通信制御部13は、NIC(Network Interface Card)等で実現され、LAN(Local Area Network)やインターネットなどの電気通信回線を介した外部の装置と制御部15との通信を制御する。例えば、通信制御部13は、後述する音声操作処理の対象である既存システム2や、既存システム2を操作するユーザが用いるHID(Human Interface Device)3と、制御部15との通信を制御する。
記憶部14は、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。記憶部14には、音声操作装置10を動作させる処理プログラムや、処理プログラムの実行中に使用されるデータなどが予め記憶され、あるいは処理の都度一時的に記憶される。なお、記憶部14は、通信制御部13を介して制御部15と通信する構成でもよい。
本実施形態において、記憶部14は、例えば、ルール14aと、キー操作設定14bとを記憶する。これらの情報は、例えば、後述する音声操作処理に先立って、ユーザによって作成され、入力部11あるいは通信制御部13を介して、記憶部14に蓄積される。
ここで、図2は、ルール14aのデータ構成を例示する図である。また、図3は、ルール14aを説明するための図である。図2に示すように、ルール14aは、処理種別と、該処理種別に対応するコマンドとを判定する情報である。本実施形態において、処理種別とは、ユーザが操作中の業務を意味する。
具体的には、ルール14aは、業務条件、コマンド条件を含む。図2に示す例では、業務条件として、例えば業務Aとその判定条件A、業務Aに対応するコマンド条件として、コマンドα、コマンドβ、コマンドγと各コマンドの判定条件α、判定条件β、判定条件γとが含まれている。
また、ルール14aは、コマンドに対応して設定するパラメータを指定する情報である操作設定を含む。図2に示す例では、コマンドαに対応して、操作設定A-αが含まれている。
具体的には、ルール14aの各要素は、図3に示すように設定される。図3に示す例において、例えば、業務は「お客様情報登録」「サービス情報登録」である。業務「お客様情報登録」の判定条件として、例えば「プルダウンに“お客様情報”が表示されている」が設定される。また、業務「サービス情報登録」の判定条件として、「プルダウンに“サービス”が表示されている」が設定される。
また、業務「お客様情報登録」に対応するコマンドは、例えば「帳票を転記」であり、このコマンド「帳票を転記」の判定条件として、「音声テキストがコマンド名と一致」が設定される。また、業務「サービス情報登録」に対応するコマンドも、「帳票を転記」であり、このコマンドの判定条件として、「音声テキストがコマンド名と一致」が設定される。
また、図3には、例えば、業務「お客様情報登録」のコマンド「帳票を転記」に設定するパラメータを指定する操作設定が例示されている。この操作設定は、「次の発話をUI「郵便番号」に設定する」「次の発話をUI「住所」に設定する」であることが示されている。
図1の説明に戻る。キー操作設定14bは、後述する変換部15cが変換したテキストデータをコマンド判定または設定パラメータのいずれに用いるかを判定するための、HIDの操作内容を特定する情報である。
ここで、図4は、キー操作設定を説明するための図である。図4に示す例では、キー操作設定14bにより、例えば、コントロールキーが2回押されてから離されるまでに入力された音声をテキストデータに変換し、後述するコマンド判定に使用することが指定されている。また、コントロールキーが1回押されてから離されるまでに入力された音声をテキストデータに変換し、後述する設定パラメータとして使用することが指定されている。
図1の説明に戻る。制御部15は、CPU(Central Processing Unit)等を用いて実現され、メモリに記憶された処理プログラムを実行する。これにより、制御部15は、図1に例示するように、監視部15a、業務判定部15b、変換部15c、コマンド判定部15d、パラメータ取得部15eおよび操作部15fとして機能する。なお、これらの機能部は、それぞれ、あるいは一部が異なるハードウェアに実装されてもよい。例えば、監視部15aおよび業務判定部15bは、その他の機能部とは異なるハードウェアに実装されてもよい。また、制御部15は、その他の機能部を備えてもよい。
監視部15aは、既存システム2の操作状況を監視する。例えば、監視部15aは、ユーザが操作中のソフトウェアのウィンドウタイトル、プルダウンの表示等を監視している。そして、監視部15aは、定期的に、あるいは後述する音声操作処理を開始したタイミング等の適宜なタイミングに、業務判定部15bに操作状況を通知する。
業務判定部15bは、既存システム2の操作状況に基づいて、操作中の処理種別を判定する。具体的には、業務判定部15bは、監視部15aから通知された操作状況と、ルール14aの業務条件とを用いて、ユーザが操作中の業務を判定する。
例えば、業務判定部15bは、図3に示した例では、監視部15aから操作状況「プルダウンの表示は“お客様情報”」が通知された場合に、業務「お客様情報登録」の判定条件「プルダウンに“お客様情報”が表示されている」と対比する。そして、業務判定部15bは、操作状況が業務の判定条件と一致することから、操作中の業務が「お客様情報登録」であると判定する。
同様に、業務判定部15bは、操作状況「プルダウンの表示は“サービス”」が通知された場合に、業務「サービス情報登録」の判定条件「プルダウンに“サービス”が表示されている」と一致することから、操作中の業務は「サービス情報登録」と判定する。
変換部15cは、HID3の所定の操作中に入力された音声データをテキストデータに変換し、該HID3の操作内容に応じて、該テキストデータをコマンド判定または設定パラメータのいずれに用いるかを判定する。具体的には、変換部15cは、キー操作設定14bを参照し、キー操作設定14bで特定されているHID3の操作内容を検知した場合に、入力部11を介して入力された音声データを、例えば既存のAPI等を用いてテキストデータに変換する。また、変換部15cは、検知したHID3の操作内容に応じて、変換したテキストデータを、コマンド判定または設定パラメータのいずれに用いるかを判定する。
例えば、変換部15cは、図4に示した例では、コントロールキーが2回押されてから離されるまでに入力された音声データ「帳票を転記」をテキストデータに変換し、これをコマンド判定に用いると判定している。また、変換部15cは、コントロールキーが1回押されてから離されるまでに入力された音声データ「1001234」をテキストデータに変換し、これを設定パラメータに用いると判定している。さらに、コントロールキーが1回押されてから離されるまでに入力された音声データ「光の丘1-1」をテキストデータに変換し、これを次の設定パラメータに用いると判定している。
変換部15cは、コマンド判定に用いると判定した場合には、後述するコマンド判定部15dにテキストデータを送信する。また。変換部15cは、設定パラメータに用いると判定した場合は、後述するパラメータ取得部15eにテキストデータを送信する。
コマンド判定部15dは、コマンド判定に用いると判定された場合に、テキストデータと操作中の処理種別とを用いて、コマンドを判定する。具体的には、コマンド判定部15dは、ルール14aを参照し、業務判定部15bが判定した業務に対応するコマンドの判定条件とテキストデータとを用いて、コマンドを判定する。
例えば、コマンド判定部15dは、図3に示した例では、業務「お客様情報登録」に対応するコマンド「帳票を転記」の判定条件「音声テキストがコマンド名と一致」と、テキストデータ「帳票を転記」とが一致する場合に、テキストデータのコマンドを「帳票を転記」と判定する。
パラメータ取得部15eは、設定パラメータに用いると判定された場合に、テキストデータをパラメータとして取得する。また、操作部15fは、取得されたパラメータを用いて、判定されたコマンドに対応した操作を既存システム2に対して実行する。
具体的には、パラメータ取得部15eは、変換部15cから取得したテキストデータをキュー形式のデータ構造で保持し、操作部15fに対し、操作「次の発話を取得」に対応してFIFO(First In First Out)で値を返却する。また、操作部15fは、ルール14aの操作設定に従って、パラメータ取得部15eが取得したテキストデータを、判定されたコマンドのパラメータとして、既存システム2に対してコマンドの操作を行う。
ここで、図5は、操作部の処理を説明するための図である。図5(a)に示した例では、操作設定は、「次の発話を取得」「UI指定」「UI操作」等の操作を含んでいる。そして、設定パラメータに用いると判定されたテキストデータ(図5(a)の「次の発話」に相当)を取得して、UI「郵便番号」に「設定する」というUI操作を行うことが指定されている。また、その次のテキストデータ(次の発話)をUI「住所」に設定することが指定されている。
そして、操作部15fは、図4に示したHID3の操作により、設定パラメータに用いると判定されたテキストデータ「1001234」を、既存システム2の業務「お客様情報登録」の画面のUI「郵便番号」に設定する。また、操作部15fは、次のテキストデータ「光の丘1-1」を同一の画面のUI「住所」に設定する。
同様に、操作部15fは、図5(b)に示した例では、テキストデータ「ネットワーク」を既存システム2の業務「サービス情報登録」の画面のUI「サービス」に設定する。また、操作部15fは、次のテキストデータ「帯域保障」を同一の画面のUI「オプション」に設定する。また、操作部15fは、その次のテキストデータ「現場調査要」を同一の画面のUI「備考」に設定する。
このように、操作部15fは、ルール14aに定義された操作設定に従って、既存システム2のUIを操作する。また、図5(a)(b)とでは、同一のコマンド「帳票を転記」を用いても、図3に示したように「お客様情報登録」「サービス情報登録」との異なる業務に対応した異なる操作設定に従って、適切に操作が実行される。
[音声操作処理]
次に、図6~図10を参照して、本実施形態に係る音声操作装置10による音声操作処理について説明する。図6~図10は、音声操作処理手順を示すフローチャートである。まず、図6のフローチャートは、例えば、ユーザがHID3を用いて音声操作を開始する操作入力を行ったタイミングで開始される。
まず、業務判定部15bが、監視部15aから通知された操作状況と、ルール14aの業務条件とを用いて、ユーザが操作中の業務を判定する(ステップS1)。
次に、変換部15cが、HID3の所定の操作中に入力された音声データをテキストデータに変換し、該HID3の操作内容に応じて、該テキストデータをコマンド判定または設定パラメータのいずれに用いるかを判定する(ステップS2~S3)。
変換部15cがコマンド判定に用いると判定した場合には(ステップS3、Yes)、コマンド判定部15dが、テキストデータと操作中の処理種別とを用いて、コマンドを判定する(ステップS4)。
一方、変換部15cが設定パラメータに用いると判定した場合は(ステップS3、No)、パラメータ取得部15eが、テキストデータをパラメータとして取得する(ステップS5)。また、操作部15fが、取得されたパラメータを用いて、判定されたコマンドに対応した操作を既存システム2に対して実行する(ステップS6)。これにより、一連の音声操作処理が終了する。
次に、図7は、上記のステップS1の処理の詳細な手順を示す。業務判定部15bは、ルール14aの業務条件を取得し(ステップS11)、既存システム2の操作状況の受信を待機する(ステップS12、No)。操作状況を受信した場合に(ステップS12、Yes)、業務判定部15bは、ルール14aの業務条件の業務を順に参照し、業務に対応する判定条件を取得する(ステップS13)。
取得した判定条件が空の場合には(ステップS14、Yes)、業務判定部15bは、ステップS12に処理を戻す。一方、判定条件が空ではない場合には(ステップS14、No)、業務判定部15bは、操作状況が業務の判定条件と一致するか否かを確認する(ステップS15)。
一致しない場合には(ステップS15、No)、業務判定部15bは、ステップS13に処理を戻す。一方、一致する場合には(ステップS15、Yes)、業務判定部15bは、一致した業務をユーザが操作中の現在の業務と判定し(ステップS16)、ステップS12に処理を戻す。
また、図8は、上記のステップS2~S3の処理の詳細な手順を示す。変換部15cは、キー操作設定14bを読み込んで(ステップS21)、HID3におけるキーとなる操作の発生を待機する(ステップS22、No)。キーとなる操作が発生した場合には(ステップS22、Yes)、変換部15cは、ユーザの音声データを取得して(ステップS23)、HID3におけるキーとなる操作の終了を待機する(ステップS24、No)。
キーとなる操作が終了した場合には(ステップS24、Yes)、変換部15cは、取得した音声データをテキストデータ(音声テキスト)に変換する(ステップS25)。
また、キーとなる操作が、音声テキストをコマンド判定に用いることを指定する操作だった場合には(ステップS26、Yes)、変換部15cは、音声テキストをコマンド判定部15dに送信し(ステップS27)、ステップS22に処理を戻す。
一方、キーとなる操作が、音声テキストを設定パラメータに用いることを指定する操作だった場合には(ステップS26、No)、変換部15cは、音声テキストをパラメータ取得部15eに送信し(ステップS28)、ステップS22に処理を戻す。
図9は、上記のステップS4の処理の詳細な手順を示す。コマンド判定部15dは、ルール14aの業務条件、コマンド条件および操作設定を取得し(ステップS41)、音声テキストの受信を待機する(ステップS42、No)。音声テキストを受信した場合に(ステップS42、Yes)、コマンド判定部15dは、業務判定部15bから、ユーザの現在の業務を取得する(ステップS43)。
また、コマンド判定部15dは、ルール14aの業務に対応するコマンド条件のコマンドを順に参照し、コマンドに対応する判定条件を取得する(ステップS44)。
取得した判定条件が空の場合には(ステップS45、Yes)、コマンド判定部15dは、ステップS42に処理を戻す。一方、判定条件が空ではない場合には(ステップS45、No)、コマンド判定部15dは、音声テキストがコマンドの判定条件と一致するか否かを確認する(ステップS46)。
一致しない場合には(ステップS46、No)、コマンド判定部15dは、ステップS44に処理を戻す。一方、一致する場合には(ステップS46、Yes)、コマンド判定部15dは、一致したコマンドに対応する操作設定を操作部15fに送信し(ステップS47)、ステップS42に処理を戻す。
図10は、上記のステップS6の処理の詳細な手順を示す。操作部15fは、コマンド判定部15dからコマンドの操作設定の受信を待機する(ステップS61、No)。操作設定を受信した場合に(ステップS61、Yes)、操作部15fは、コマンドの操作設定の操作を順に取得する(ステップS62)。
取得した操作が空の場合には(ステップS63、Yes)、操作部15fは、ステップS61に処理を戻す。一方、操作が空ではない場合には(ステップS63、No)、操作部15fは、操作の種別を確認し(ステップS64)、種別に応じた操作を実行する。
操作の種別が「次の発話を取得」である場合には、操作部15fは、パラメータ取得部15eから音声テキストを取得し(ステップS65)、ステップS62に処理を戻す。
操作の種別が「UI指定」である場合には、操作部15fは、名前をもとに既存システム2のオブジェクト参照を取得し(ステップS66)、ステップS62に処理を戻す。
ここで、オブジェクト参照は、既存システム2のボタンやテキストボックス等のUIを一意に特定する情報である。例えば、既存システム2がWebベースのシステムである場合には、オブジェクト参照はDOM(Document Object Model)のElementである。また、既存システム2がWindows(登録商標)の電卓アプリ等のネイティブアプリケーションである場合には、オブジェクト参照はUI AutmationのAutmationElementである。操作部15fは、オブジェクト参照を用いることにより、既存システム2に対する操作を実行することが可能となる。
操作の種別が「UI操作」である場合には、操作部15fは、オブジェクト参照を用いて既存システム2のUIを操作し(ステップS67)、ステップS62に処理を戻す。
操作の種別が「音による通知」である場合には、操作部15fは、音声を出力し(ステップS68)、ステップS62に処理を戻す。
以上、説明したように、本実施形態の音声操作装置10において、業務判定部15bが、既存システム2の操作状況に基づいて、操作中の処理種別を判定する。また、変換部15cが、HID3の所定の操作中に入力された音声データをテキストデータに変換し、該HID3の操作内容に応じて、該テキストデータをコマンド判定または設定パラメータのいずれに用いるかを判定する。また、コマンド判定部15dが、コマンド判定に用いると判定された場合に、テキストデータと操作中の処理種別とを用いて、コマンドを判定する。また、操作部15fが、設定パラメータに用いると判定された場合に、テキストデータをパラメータとして用いて、判定されたコマンドに対応した操作を既存システム2に対して実行する。
これにより、音声操作装置10は、予め設定された規定の音声コマンドに限定されることなく、任意の音声操作の機能を後付けで適用可能となる。特に、HID3の操作を起点として音声操作を行うため、操作中に音声を起点とした音声操作を併用する場合のように操作中の業務の流れに支障を来すことなく、音声操作を実現可能となる。また、ユーザの業務等の状況を考慮して音声コマンドを判定するので、音声コマンドの種類の増加を抑えて、効率よく音声操作の機能を実現できる。また、コマンドと多数のパラメータとの対応付けを柔軟に設定できるので、容易に実現できる。
例えば、印刷された紙帳票の手書き入力欄を上から読み上げることにより、対応するシステムの入力欄にテキストを入力することが可能となる。あるいは、印刷された紙帳票の手書き入力欄を上から読み上げて、対応するシステムの入力欄に設定された内容と比較することにより、齟齬があればエラーを通知することが可能となる。このように、音声操作装置10によれば、プログラムのハードコーティング等を不要として、既存システムに任意の音声操作の機能を追加することが可能となる。
また、記憶部14に、処理種別と、該処理種別に対応するコマンドとを判定するルール14aを記憶する。また、ルール14aは、コマンドに対応して設定するパラメータを指定する情報を含む。これにより、ユーザがきめ細かく音声操作機能を追加することが容易に可能となる。
また、記憶部14は、音声を変換したテキストデータをコマンド判定または設定パラメータのいずれに用いるかを判定するための、HIDの操作内容を特定するキー操作設定14bを記憶する。これにより、音声操作に用いる音声の抽出が、形態素解析等によらずに容易に可能となる。
また、監視部15aが、既存システム2の操作状況を監視する。これにより、迅速にユーザによる既存システム2の処理状況を把握して、高精度な音声操作が可能となる。
[プログラム]
上記実施形態に係る音声操作装置10が実行する処理をコンピュータが実行可能な言語で記述したプログラムを作成することもできる。一実施形態として、音声操作装置10は、パッケージソフトウェアやオンラインソフトウェアとして上記の音声操作処理を実行する音声操作プログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記の音声操作プログラムを情報処理装置に実行させることにより、情報処理装置を音声操作装置10として機能させることができる。ここで言う情報処理装置には、デスクトップ型またはノート型のパーソナルコンピュータが含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やPHS(Personal Handyphone System)などの移動体通信端末、さらには、PDA(Personal Digital Assistant)などのスレート端末などがその範疇に含まれる。また、音声操作装置10の機能を、クラウドサーバに実装してもよい。
図11は、音声操作プログラムを実行するコンピュータの一例を示す図である。コンピュータ1000は、例えば、メモリ1010と、CPU1020と、ハードディスクドライブインタフェース1030と、ディスクドライブインタフェース1040と、シリアルポートインタフェース1050と、ビデオアダプタ1060と、ネットワークインタフェース1070とを有する。これらの各部は、バス1080によって接続される。
メモリ1010は、ROM(Read Only Memory)1011およびRAM1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1031に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1041に接続される。ディスクドライブ1041には、例えば、磁気ディスクや光ディスク等の着脱可能な記憶媒体が挿入される。シリアルポートインタフェース1050には、例えば、マウス1051およびキーボード1052が接続される。ビデオアダプタ1060には、例えば、ディスプレイ1061が接続される。
ここで、ハードディスクドライブ1031は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093およびプログラムデータ1094を記憶する。上記実施形態で説明した各情報は、例えばハードディスクドライブ1031やメモリ1010に記憶される。
また、音声操作プログラムは、例えば、コンピュータ1000によって実行される指令が記述されたプログラムモジュール1093として、ハードディスクドライブ1031に記憶される。具体的には、上記実施形態で説明した音声操作装置10が実行する各処理が記述されたプログラムモジュール1093が、ハードディスクドライブ1031に記憶される。
また、音声操作プログラムによる情報処理に用いられるデータは、プログラムデータ1094として、例えば、ハードディスクドライブ1031に記憶される。そして、CPU1020が、ハードディスクドライブ1031に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して、上述した各手順を実行する。
なお、音声操作プログラムに係るプログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1031に記憶される場合に限られず、例えば、着脱可能な記憶媒体に記憶されて、ディスクドライブ1041等を介してCPU1020によって読み出されてもよい。あるいは、音声操作プログラムに係るプログラムモジュール1093やプログラムデータ1094は、LANやWAN(Wide Area Network)等のネットワークを介して接続された他のコンピュータに記憶され、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
以上、本発明者によってなされた発明を適用した実施形態について説明したが、本実施形態による本発明の開示の一部をなす記述および図面により本発明は限定されることはない。すなわち、本実施形態に基づいて当業者等によりなされる他の実施形態、実施例および運用技術等は全て本発明の範疇に含まれる。
10 音声操作装置
11 入力部
12 出力部
13 通信制御部
14 記憶部
14a ルール
14b キー操作設定
15 制御部
15a 監視部
15b 業務判定部
15c 変換部
15d コマンド判定部
15e パラメータ取得部
15f 操作部

Claims (7)

  1. 既存システムの操作状況に基づいて、操作中の処理種別を判定する業務判定部と、
    HID(Human Interface Device)の所定の操作中に入力された音声データをテキストデータに変換し、該HIDの操作内容に応じて、該テキストデータをコマンド判定または設定パラメータのいずれに用いるかを判定する変換部と、
    コマンド判定に用いると判定された場合に、前記テキストデータと前記操作中の処理種別とを用いて、コマンドを判定するコマンド判定部と、
    設定パラメータに用いると判定された場合に、前記テキストデータをパラメータとして用いて、判定された前記コマンドに対応した操作を前記既存システムに対して実行する操作部と、
    を備えることを特徴とする音声操作装置。
  2. 前記処理種別と、該処理種別に対応する前記コマンドとを判定するルールを記憶する記憶部を、さらに備えることを特徴とする請求項1に記載の音声操作装置。
  3. 前記ルールは、前記コマンドに対応して設定するパラメータを指定する情報をさらに含むことを特徴とする請求項2に記載の音声操作装置。
  4. 前記HIDの操作内容を特定するキー操作設定を記憶する記憶部を、さらに備えることを特徴とする請求項1に記載の音声操作装置。
  5. 前記既存システムの操作状況を監視する監視部を、さらに備えることを特徴とする請求項1に記載の音声操作装置。
  6. 音声操作装置で実行される音声操作方法であって、
    既存システムの操作状況に基づいて、操作中の処理種別を判定する業務判定工程と、
    HID(Human Interface Device)の所定の操作中に入力された音声データをテキストデータに変換し、該HIDの操作内容に応じて、該テキストデータをコマンド判定または設定パラメータのいずれに用いるかを判定する変換工程と、
    コマンド判定に用いると判定された場合に、前記テキストデータと前記操作中の処理種別とを用いて、コマンドを判定するコマンド判定工程と、
    設定パラメータに用いると判定された場合に、前記テキストデータをパラメータとして用いて、判定された前記コマンドに対応した操作を前記既存システムに対して実行する操作工程と、
    を含んだことを特徴とする音声操作方法。
  7. コンピュータを請求項1~5のいずれか1項に記載の音声操作装置として機能させるための音声操作プログラム。
JP2022532931A 2020-07-01 2020-07-01 音声操作装置、音声操作方法および音声操作プログラム Active JP7452652B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/025914 WO2022003879A1 (ja) 2020-07-01 2020-07-01 音声操作装置、音声操作方法および音声操作プログラム

Publications (2)

Publication Number Publication Date
JPWO2022003879A1 JPWO2022003879A1 (ja) 2022-01-06
JP7452652B2 true JP7452652B2 (ja) 2024-03-19

Family

ID=79314987

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022532931A Active JP7452652B2 (ja) 2020-07-01 2020-07-01 音声操作装置、音声操作方法および音声操作プログラム

Country Status (3)

Country Link
US (1) US20230260508A1 (ja)
JP (1) JP7452652B2 (ja)
WO (1) WO2022003879A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012211932A (ja) 2011-03-30 2012-11-01 Toshiba Corp 音声認識装置及び音声認識方法
JP2019139674A (ja) 2018-02-15 2019-08-22 京セラドキュメントソリューションズ株式会社 電子機器

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3586777B2 (ja) * 1994-08-17 2004-11-10 富士通株式会社 音声入力装置
JP6123121B2 (ja) * 2011-10-14 2017-05-10 ヴイアールアイ株式会社 音声制御システム及びプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012211932A (ja) 2011-03-30 2012-11-01 Toshiba Corp 音声認識装置及び音声認識方法
JP2019139674A (ja) 2018-02-15 2019-08-22 京セラドキュメントソリューションズ株式会社 電子機器

Also Published As

Publication number Publication date
JPWO2022003879A1 (ja) 2022-01-06
US20230260508A1 (en) 2023-08-17
WO2022003879A1 (ja) 2022-01-06

Similar Documents

Publication Publication Date Title
US8024194B2 (en) Dynamic switching between local and remote speech rendering
US7917365B2 (en) Synchronizing visual and speech events in a multimodal application
US11176141B2 (en) Preserving emotion of user input
JP3378498B2 (ja) 音声コマンドを使用してネットワークをナビゲートするデータ処理システムおよび方法
US7890333B2 (en) Using a WIKI editor to create speech-enabled applications
JP2018511095A5 (ja)
US8032825B2 (en) Dynamically creating multimodal markup documents
JP7200533B2 (ja) 情報処理装置およびプログラム
WO2023142451A1 (zh) 工作流生成方法、装置、电子设备
JP5886103B2 (ja) 応答生成装置、応答生成システム、応答生成方法および応答生成プログラム
US20190295532A1 (en) Remote Generation of Executable Code for a Client Application Based on Natural Language Commands Captured at a Client Device
EP3671733A1 (en) Information processing device, information processing method, and program
CN112506854A (zh) 页面模板文件的存储和页面生成方法、装置、设备及介质
WO2023122444A1 (en) Language model prediction of api call invocations and verbal responses
US11842726B2 (en) Method, apparatus, electronic device and storage medium for speech recognition
CN111902831A (zh) 演示支援系统
JP7452652B2 (ja) 音声操作装置、音声操作方法および音声操作プログラム
US11036441B1 (en) System and method for creation and invocation of predefined print settings via speech input
CN113268277A (zh) 一种基于web的客户端访问方法及终端设备
EP3644309A1 (en) System and method for integrated printing of voice assistant search results
JP2002351652A (ja) 音声認識操作支援システム、音声認識操作支援方法、および、音声認識操作支援プログラム
JP5299625B2 (ja) 操作支援装置、操作支援方法、及びプログラム
EP3726366A1 (en) Operation receiving apparatus, control method, image forming system, and program
US11501762B2 (en) Compounding corrective actions and learning in mixed mode dictation
WO2021229810A1 (ja) 操作支援装置、操作支援方法および操作支援プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221114

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240206

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240219

R150 Certificate of patent or registration of utility model

Ref document number: 7452652

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150