JP7452652B2

JP7452652B2 - 音声操作装置、音声操作方法および音声操作プログラム

Info

Publication number: JP7452652B2
Application number: JP2022532931A
Authority: JP
Inventors: 英毅小矢; 真実小宮山; 明片岡; 将志田所
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2020-07-01
Filing date: 2020-07-01
Publication date: 2024-03-19
Anticipated expiration: 2040-07-01
Also published as: JPWO2022003879A1; US20230260508A1; WO2022003879A1

Description

本発明は、音声操作装置、音声操作方法および音声操作プログラムに関する。

近年、音声認識や自然言語処理の飛躍的な向上により、ＶＵＩ（Voice User Interface）が注目されている。例えばＶＵＩは、音声による自宅の家電操作（Home Automation）や、運転中の車載機能の操作などに活用されている（特許文献１、非特許文献１、２参照）。

特開２０１７－８７９５０号公報

"Windows音声認識コマンド"、[online]、Microsoft、［2020年5月8日検索］、インターネット<URL：https://support.microsoft.com/ja-jp/help/12427/windows-speech-recognition-commands> "Ａｌｅｘａで最新情報を聞いてみよう"、[online]、amazon、［2020年5月8日検索］、インターネット<URL：https://www.amazon.co.jp/b?ie=UTF8&node=4788676051>

しかしながら、従来の技術では、既存システムに任意の音声操作の機能を追加することが困難な場合がある。例えば、従来のＶＵＩの多くは、既定の音声コマンドを呼び出すだけであり、ユーザの業務に合わせて独自の音声操作を行うためには、プログラムをハードコーディングする必要がある。また、発話したユーザの状況を考慮せずに、発話とアプリケーションが合致した音声コマンドを実行するだけである。そのため、異なる業務にはそれぞれ異なる音声コマンドを定義する必要があり、音声コマンドが乱立してしまう。

本発明は、上記に鑑みてなされたものであって、既存システムに任意の音声操作の機能を追加することを目的とする。

上述した課題を解決し、目的を達成するために、本発明に係る音声操作装置は、既存システムの操作状況に基づいて、操作中の処理種別を判定する業務判定部と、ＨＩＤ（Human Interface Device）の所定の操作中に入力された音声データをテキストデータに変換し、該ＨＩＤの操作内容に応じて、該テキストデータをコマンド判定または設定パラメータのいずれに用いるかを判定する変換部と、コマンド判定に用いると判定された場合に、前記テキストデータと前記操作中の処理種別とを用いて、コマンドを判定するコマンド判定部と、設定パラメータに用いると判定された場合に、前記テキストデータをパラメータとして用いて、判定された前記コマンドに対応した操作を前記既存システムに対して実行する操作部と、を備えることを特徴とする。

本発明によれば、既存システムに任意の音声操作の機能を追加することが可能となる。

図１は、本実施形態の音声操作装置の概略構成を例示する模式図である。図２は、ルールのデータ構成を例示する図である。図３は、ルールを説明するための図である。図４は、キー操作設定を説明するための図である。図５は、操作部の処理を説明するための図である。図６は、音声操作処理手順を示すフローチャートである。図７は、音声操作処理手順を示すフローチャートである。図８は、音声操作処理手順を示すフローチャートである。図９は、音声操作処理手順を示すフローチャートである。図１０は、音声操作処理手順を示すフローチャートである。図１１は、音声操作プログラムを実行するコンピュータの一例を示す図である。

以下、図面を参照して、本発明の一実施形態を詳細に説明する。なお、この実施形態により本発明が限定されるものではない。また、図面の記載において、同一部分には同一の符号を付して示している。

［音声操作装置の構成］
図１は、本実施形態の音声操作装置の概略構成を例示する模式図である。図１に例示するように、本実施形態の音声操作装置１０は、パソコン等の汎用コンピュータで実現され、入力部１１、出力部１２、通信制御部１３、記憶部１４、および制御部１５を備える。

入力部１１は、キーボードやマウス、マイク等の入力デバイスを用いて実現され、操作者による入力操作に対応して、制御部１５に対して処理開始などの各種指示情報を入力する。また、入力部１１は、ＨＩＤ３を介して既存システム２を操作するユーザの音声を入力する。

出力部１２は、液晶ディスプレイなどの表示装置、プリンター等の印刷装置等によって実現される。例えば、出力部１２は、後述する音声操作処理において、ユーザの発話を変換したテキストデータ等を表示する。

通信制御部１３は、ＮＩＣ（Network Interface Card）等で実現され、ＬＡＮ（Local Area Network）やインターネットなどの電気通信回線を介した外部の装置と制御部１５との通信を制御する。例えば、通信制御部１３は、後述する音声操作処理の対象である既存システム２や、既存システム２を操作するユーザが用いるＨＩＤ（Human Interface Device）３と、制御部１５との通信を制御する。

記憶部１４は、ＲＡＭ（Random Access Memory）、フラッシュメモリ（Flash Memory）等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。記憶部１４には、音声操作装置１０を動作させる処理プログラムや、処理プログラムの実行中に使用されるデータなどが予め記憶され、あるいは処理の都度一時的に記憶される。なお、記憶部１４は、通信制御部１３を介して制御部１５と通信する構成でもよい。

本実施形態において、記憶部１４は、例えば、ルール１４ａと、キー操作設定１４ｂとを記憶する。これらの情報は、例えば、後述する音声操作処理に先立って、ユーザによって作成され、入力部１１あるいは通信制御部１３を介して、記憶部１４に蓄積される。

ここで、図２は、ルール１４ａのデータ構成を例示する図である。また、図３は、ルール１４ａを説明するための図である。図２に示すように、ルール１４ａは、処理種別と、該処理種別に対応するコマンドとを判定する情報である。本実施形態において、処理種別とは、ユーザが操作中の業務を意味する。

具体的には、ルール１４ａは、業務条件、コマンド条件を含む。図２に示す例では、業務条件として、例えば業務Ａとその判定条件Ａ、業務Ａに対応するコマンド条件として、コマンドα、コマンドβ、コマンドγと各コマンドの判定条件α、判定条件β、判定条件γとが含まれている。

また、ルール１４ａは、コマンドに対応して設定するパラメータを指定する情報である操作設定を含む。図２に示す例では、コマンドαに対応して、操作設定Ａ－αが含まれている。

具体的には、ルール１４ａの各要素は、図３に示すように設定される。図３に示す例において、例えば、業務は「お客様情報登録」「サービス情報登録」である。業務「お客様情報登録」の判定条件として、例えば「プルダウンに“お客様情報”が表示されている」が設定される。また、業務「サービス情報登録」の判定条件として、「プルダウンに“サービス”が表示されている」が設定される。

また、業務「お客様情報登録」に対応するコマンドは、例えば「帳票を転記」であり、このコマンド「帳票を転記」の判定条件として、「音声テキストがコマンド名と一致」が設定される。また、業務「サービス情報登録」に対応するコマンドも、「帳票を転記」であり、このコマンドの判定条件として、「音声テキストがコマンド名と一致」が設定される。

また、図３には、例えば、業務「お客様情報登録」のコマンド「帳票を転記」に設定するパラメータを指定する操作設定が例示されている。この操作設定は、「次の発話をＵＩ「郵便番号」に設定する」「次の発話をＵＩ「住所」に設定する」であることが示されている。

図１の説明に戻る。キー操作設定１４ｂは、後述する変換部１５ｃが変換したテキストデータをコマンド判定または設定パラメータのいずれに用いるかを判定するための、ＨＩＤの操作内容を特定する情報である。

ここで、図４は、キー操作設定を説明するための図である。図４に示す例では、キー操作設定１４ｂにより、例えば、コントロールキーが２回押されてから離されるまでに入力された音声をテキストデータに変換し、後述するコマンド判定に使用することが指定されている。また、コントロールキーが１回押されてから離されるまでに入力された音声をテキストデータに変換し、後述する設定パラメータとして使用することが指定されている。

図１の説明に戻る。制御部１５は、ＣＰＵ（Central Processing Unit）等を用いて実現され、メモリに記憶された処理プログラムを実行する。これにより、制御部１５は、図１に例示するように、監視部１５ａ、業務判定部１５ｂ、変換部１５ｃ、コマンド判定部１５ｄ、パラメータ取得部１５ｅおよび操作部１５ｆとして機能する。なお、これらの機能部は、それぞれ、あるいは一部が異なるハードウェアに実装されてもよい。例えば、監視部１５ａおよび業務判定部１５ｂは、その他の機能部とは異なるハードウェアに実装されてもよい。また、制御部１５は、その他の機能部を備えてもよい。

監視部１５ａは、既存システム２の操作状況を監視する。例えば、監視部１５ａは、ユーザが操作中のソフトウェアのウィンドウタイトル、プルダウンの表示等を監視している。そして、監視部１５ａは、定期的に、あるいは後述する音声操作処理を開始したタイミング等の適宜なタイミングに、業務判定部１５ｂに操作状況を通知する。

業務判定部１５ｂは、既存システム２の操作状況に基づいて、操作中の処理種別を判定する。具体的には、業務判定部１５ｂは、監視部１５ａから通知された操作状況と、ルール１４ａの業務条件とを用いて、ユーザが操作中の業務を判定する。

例えば、業務判定部１５ｂは、図３に示した例では、監視部１５ａから操作状況「プルダウンの表示は“お客様情報”」が通知された場合に、業務「お客様情報登録」の判定条件「プルダウンに“お客様情報”が表示されている」と対比する。そして、業務判定部１５ｂは、操作状況が業務の判定条件と一致することから、操作中の業務が「お客様情報登録」であると判定する。

同様に、業務判定部１５ｂは、操作状況「プルダウンの表示は“サービス”」が通知された場合に、業務「サービス情報登録」の判定条件「プルダウンに“サービス”が表示されている」と一致することから、操作中の業務は「サービス情報登録」と判定する。

変換部１５ｃは、ＨＩＤ３の所定の操作中に入力された音声データをテキストデータに変換し、該ＨＩＤ３の操作内容に応じて、該テキストデータをコマンド判定または設定パラメータのいずれに用いるかを判定する。具体的には、変換部１５ｃは、キー操作設定１４ｂを参照し、キー操作設定１４ｂで特定されているＨＩＤ３の操作内容を検知した場合に、入力部１１を介して入力された音声データを、例えば既存のＡＰＩ等を用いてテキストデータに変換する。また、変換部１５ｃは、検知したＨＩＤ３の操作内容に応じて、変換したテキストデータを、コマンド判定または設定パラメータのいずれに用いるかを判定する。

例えば、変換部１５ｃは、図４に示した例では、コントロールキーが２回押されてから離されるまでに入力された音声データ「帳票を転記」をテキストデータに変換し、これをコマンド判定に用いると判定している。また、変換部１５ｃは、コントロールキーが１回押されてから離されるまでに入力された音声データ「１００１２３４」をテキストデータに変換し、これを設定パラメータに用いると判定している。さらに、コントロールキーが１回押されてから離されるまでに入力された音声データ「光の丘１－１」をテキストデータに変換し、これを次の設定パラメータに用いると判定している。

変換部１５ｃは、コマンド判定に用いると判定した場合には、後述するコマンド判定部１５ｄにテキストデータを送信する。また。変換部１５ｃは、設定パラメータに用いると判定した場合は、後述するパラメータ取得部１５ｅにテキストデータを送信する。

コマンド判定部１５ｄは、コマンド判定に用いると判定された場合に、テキストデータと操作中の処理種別とを用いて、コマンドを判定する。具体的には、コマンド判定部１５ｄは、ルール１４ａを参照し、業務判定部１５ｂが判定した業務に対応するコマンドの判定条件とテキストデータとを用いて、コマンドを判定する。

例えば、コマンド判定部１５ｄは、図３に示した例では、業務「お客様情報登録」に対応するコマンド「帳票を転記」の判定条件「音声テキストがコマンド名と一致」と、テキストデータ「帳票を転記」とが一致する場合に、テキストデータのコマンドを「帳票を転記」と判定する。

パラメータ取得部１５ｅは、設定パラメータに用いると判定された場合に、テキストデータをパラメータとして取得する。また、操作部１５ｆは、取得されたパラメータを用いて、判定されたコマンドに対応した操作を既存システム２に対して実行する。

具体的には、パラメータ取得部１５ｅは、変換部１５ｃから取得したテキストデータをキュー形式のデータ構造で保持し、操作部１５ｆに対し、操作「次の発話を取得」に対応してＦＩＦＯ（First In First Out）で値を返却する。また、操作部１５ｆは、ルール１４ａの操作設定に従って、パラメータ取得部１５ｅが取得したテキストデータを、判定されたコマンドのパラメータとして、既存システム２に対してコマンドの操作を行う。

ここで、図５は、操作部の処理を説明するための図である。図５（ａ）に示した例では、操作設定は、「次の発話を取得」「ＵＩ指定」「ＵＩ操作」等の操作を含んでいる。そして、設定パラメータに用いると判定されたテキストデータ（図５（ａ）の「次の発話」に相当）を取得して、ＵＩ「郵便番号」に「設定する」というＵＩ操作を行うことが指定されている。また、その次のテキストデータ（次の発話）をＵＩ「住所」に設定することが指定されている。

そして、操作部１５ｆは、図４に示したＨＩＤ３の操作により、設定パラメータに用いると判定されたテキストデータ「１００１２３４」を、既存システム２の業務「お客様情報登録」の画面のＵＩ「郵便番号」に設定する。また、操作部１５ｆは、次のテキストデータ「光の丘１－１」を同一の画面のＵＩ「住所」に設定する。

同様に、操作部１５ｆは、図５（ｂ）に示した例では、テキストデータ「ネットワーク」を既存システム２の業務「サービス情報登録」の画面のＵＩ「サービス」に設定する。また、操作部１５ｆは、次のテキストデータ「帯域保障」を同一の画面のＵＩ「オプション」に設定する。また、操作部１５ｆは、その次のテキストデータ「現場調査要」を同一の画面のＵＩ「備考」に設定する。

このように、操作部１５ｆは、ルール１４ａに定義された操作設定に従って、既存システム２のＵＩを操作する。また、図５（ａ）（ｂ）とでは、同一のコマンド「帳票を転記」を用いても、図３に示したように「お客様情報登録」「サービス情報登録」との異なる業務に対応した異なる操作設定に従って、適切に操作が実行される。

［音声操作処理］
次に、図６～図１０を参照して、本実施形態に係る音声操作装置１０による音声操作処理について説明する。図６～図１０は、音声操作処理手順を示すフローチャートである。まず、図６のフローチャートは、例えば、ユーザがＨＩＤ３を用いて音声操作を開始する操作入力を行ったタイミングで開始される。

まず、業務判定部１５ｂが、監視部１５ａから通知された操作状況と、ルール１４ａの業務条件とを用いて、ユーザが操作中の業務を判定する（ステップＳ１）。

次に、変換部１５ｃが、ＨＩＤ３の所定の操作中に入力された音声データをテキストデータに変換し、該ＨＩＤ３の操作内容に応じて、該テキストデータをコマンド判定または設定パラメータのいずれに用いるかを判定する（ステップＳ２～Ｓ３）。

変換部１５ｃがコマンド判定に用いると判定した場合には（ステップＳ３、Ｙｅｓ）、コマンド判定部１５ｄが、テキストデータと操作中の処理種別とを用いて、コマンドを判定する（ステップＳ４）。

一方、変換部１５ｃが設定パラメータに用いると判定した場合は（ステップＳ３、Ｎｏ）、パラメータ取得部１５ｅが、テキストデータをパラメータとして取得する（ステップＳ５）。また、操作部１５ｆが、取得されたパラメータを用いて、判定されたコマンドに対応した操作を既存システム２に対して実行する（ステップＳ６）。これにより、一連の音声操作処理が終了する。

次に、図７は、上記のステップＳ１の処理の詳細な手順を示す。業務判定部１５ｂは、ルール１４ａの業務条件を取得し（ステップＳ１１）、既存システム２の操作状況の受信を待機する（ステップＳ１２、Ｎｏ）。操作状況を受信した場合に（ステップＳ１２、Ｙｅｓ）、業務判定部１５ｂは、ルール１４ａの業務条件の業務を順に参照し、業務に対応する判定条件を取得する（ステップＳ１３）。

取得した判定条件が空の場合には（ステップＳ１４、Ｙｅｓ）、業務判定部１５ｂは、ステップＳ１２に処理を戻す。一方、判定条件が空ではない場合には（ステップＳ１４、Ｎｏ）、業務判定部１５ｂは、操作状況が業務の判定条件と一致するか否かを確認する（ステップＳ１５）。

一致しない場合には（ステップＳ１５、Ｎｏ）、業務判定部１５ｂは、ステップＳ１３に処理を戻す。一方、一致する場合には（ステップＳ１５、Ｙｅｓ）、業務判定部１５ｂは、一致した業務をユーザが操作中の現在の業務と判定し（ステップＳ１６）、ステップＳ１２に処理を戻す。

また、図８は、上記のステップＳ２～Ｓ３の処理の詳細な手順を示す。変換部１５ｃは、キー操作設定１４ｂを読み込んで（ステップＳ２１）、ＨＩＤ３におけるキーとなる操作の発生を待機する（ステップＳ２２、Ｎｏ）。キーとなる操作が発生した場合には（ステップＳ２２、Ｙｅｓ）、変換部１５ｃは、ユーザの音声データを取得して（ステップＳ２３）、ＨＩＤ３におけるキーとなる操作の終了を待機する（ステップＳ２４、Ｎｏ）。

キーとなる操作が終了した場合には（ステップＳ２４、Ｙｅｓ）、変換部１５ｃは、取得した音声データをテキストデータ（音声テキスト）に変換する（ステップＳ２５）。

また、キーとなる操作が、音声テキストをコマンド判定に用いることを指定する操作だった場合には（ステップＳ２６、Ｙｅｓ）、変換部１５ｃは、音声テキストをコマンド判定部１５ｄに送信し（ステップＳ２７）、ステップＳ２２に処理を戻す。

一方、キーとなる操作が、音声テキストを設定パラメータに用いることを指定する操作だった場合には（ステップＳ２６、Ｎｏ）、変換部１５ｃは、音声テキストをパラメータ取得部１５ｅに送信し（ステップＳ２８）、ステップＳ２２に処理を戻す。

図９は、上記のステップＳ４の処理の詳細な手順を示す。コマンド判定部１５ｄは、ルール１４ａの業務条件、コマンド条件および操作設定を取得し（ステップＳ４１）、音声テキストの受信を待機する（ステップＳ４２、Ｎｏ）。音声テキストを受信した場合に（ステップＳ４２、Ｙｅｓ）、コマンド判定部１５ｄは、業務判定部１５ｂから、ユーザの現在の業務を取得する（ステップＳ４３）。

また、コマンド判定部１５ｄは、ルール１４ａの業務に対応するコマンド条件のコマンドを順に参照し、コマンドに対応する判定条件を取得する（ステップＳ４４）。

取得した判定条件が空の場合には（ステップＳ４５、Ｙｅｓ）、コマンド判定部１５ｄは、ステップＳ４２に処理を戻す。一方、判定条件が空ではない場合には（ステップＳ４５、Ｎｏ）、コマンド判定部１５ｄは、音声テキストがコマンドの判定条件と一致するか否かを確認する（ステップＳ４６）。

一致しない場合には（ステップＳ４６、Ｎｏ）、コマンド判定部１５ｄは、ステップＳ４４に処理を戻す。一方、一致する場合には（ステップＳ４６、Ｙｅｓ）、コマンド判定部１５ｄは、一致したコマンドに対応する操作設定を操作部１５ｆに送信し（ステップＳ４７）、ステップＳ４２に処理を戻す。

図１０は、上記のステップＳ６の処理の詳細な手順を示す。操作部１５ｆは、コマンド判定部１５ｄからコマンドの操作設定の受信を待機する（ステップＳ６１、Ｎｏ）。操作設定を受信した場合に（ステップＳ６１、Ｙｅｓ）、操作部１５ｆは、コマンドの操作設定の操作を順に取得する（ステップＳ６２）。

取得した操作が空の場合には（ステップＳ６３、Ｙｅｓ）、操作部１５ｆは、ステップＳ６１に処理を戻す。一方、操作が空ではない場合には（ステップＳ６３、Ｎｏ）、操作部１５ｆは、操作の種別を確認し（ステップＳ６４）、種別に応じた操作を実行する。

操作の種別が「次の発話を取得」である場合には、操作部１５ｆは、パラメータ取得部１５ｅから音声テキストを取得し（ステップＳ６５）、ステップＳ６２に処理を戻す。

操作の種別が「ＵＩ指定」である場合には、操作部１５ｆは、名前をもとに既存システム２のオブジェクト参照を取得し（ステップＳ６６）、ステップＳ６２に処理を戻す。

ここで、オブジェクト参照は、既存システム２のボタンやテキストボックス等のＵＩを一意に特定する情報である。例えば、既存システム２がＷｅｂベースのシステムである場合には、オブジェクト参照はＤＯＭ（Document Object Model）のＥｌｅｍｅｎｔである。また、既存システム２がＷｉｎｄｏｗｓ（登録商標）の電卓アプリ等のネイティブアプリケーションである場合には、オブジェクト参照はＵＩＡｕｔｍａｔｉｏｎのＡｕｔｍａｔｉｏｎＥｌｅｍｅｎｔである。操作部１５ｆは、オブジェクト参照を用いることにより、既存システム２に対する操作を実行することが可能となる。

操作の種別が「ＵＩ操作」である場合には、操作部１５ｆは、オブジェクト参照を用いて既存システム２のＵＩを操作し（ステップＳ６７）、ステップＳ６２に処理を戻す。

操作の種別が「音による通知」である場合には、操作部１５ｆは、音声を出力し（ステップＳ６８）、ステップＳ６２に処理を戻す。

以上、説明したように、本実施形態の音声操作装置１０において、業務判定部１５ｂが、既存システム２の操作状況に基づいて、操作中の処理種別を判定する。また、変換部１５ｃが、ＨＩＤ３の所定の操作中に入力された音声データをテキストデータに変換し、該ＨＩＤ３の操作内容に応じて、該テキストデータをコマンド判定または設定パラメータのいずれに用いるかを判定する。また、コマンド判定部１５ｄが、コマンド判定に用いると判定された場合に、テキストデータと操作中の処理種別とを用いて、コマンドを判定する。また、操作部１５ｆが、設定パラメータに用いると判定された場合に、テキストデータをパラメータとして用いて、判定されたコマンドに対応した操作を既存システム２に対して実行する。

これにより、音声操作装置１０は、予め設定された規定の音声コマンドに限定されることなく、任意の音声操作の機能を後付けで適用可能となる。特に、ＨＩＤ３の操作を起点として音声操作を行うため、操作中に音声を起点とした音声操作を併用する場合のように操作中の業務の流れに支障を来すことなく、音声操作を実現可能となる。また、ユーザの業務等の状況を考慮して音声コマンドを判定するので、音声コマンドの種類の増加を抑えて、効率よく音声操作の機能を実現できる。また、コマンドと多数のパラメータとの対応付けを柔軟に設定できるので、容易に実現できる。

例えば、印刷された紙帳票の手書き入力欄を上から読み上げることにより、対応するシステムの入力欄にテキストを入力することが可能となる。あるいは、印刷された紙帳票の手書き入力欄を上から読み上げて、対応するシステムの入力欄に設定された内容と比較することにより、齟齬があればエラーを通知することが可能となる。このように、音声操作装置１０によれば、プログラムのハードコーティング等を不要として、既存システムに任意の音声操作の機能を追加することが可能となる。

また、記憶部１４に、処理種別と、該処理種別に対応するコマンドとを判定するルール１４ａを記憶する。また、ルール１４ａは、コマンドに対応して設定するパラメータを指定する情報を含む。これにより、ユーザがきめ細かく音声操作機能を追加することが容易に可能となる。

また、記憶部１４は、音声を変換したテキストデータをコマンド判定または設定パラメータのいずれに用いるかを判定するための、ＨＩＤの操作内容を特定するキー操作設定１４ｂを記憶する。これにより、音声操作に用いる音声の抽出が、形態素解析等によらずに容易に可能となる。

また、監視部１５ａが、既存システム２の操作状況を監視する。これにより、迅速にユーザによる既存システム２の処理状況を把握して、高精度な音声操作が可能となる。

［プログラム］
上記実施形態に係る音声操作装置１０が実行する処理をコンピュータが実行可能な言語で記述したプログラムを作成することもできる。一実施形態として、音声操作装置１０は、パッケージソフトウェアやオンラインソフトウェアとして上記の音声操作処理を実行する音声操作プログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記の音声操作プログラムを情報処理装置に実行させることにより、情報処理装置を音声操作装置１０として機能させることができる。ここで言う情報処理装置には、デスクトップ型またはノート型のパーソナルコンピュータが含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やＰＨＳ（Personal Handyphone System）などの移動体通信端末、さらには、ＰＤＡ（Personal Digital Assistant）などのスレート端末などがその範疇に含まれる。また、音声操作装置１０の機能を、クラウドサーバに実装してもよい。

図１１は、音声操作プログラムを実行するコンピュータの一例を示す図である。コンピュータ１０００は、例えば、メモリ１０１０と、ＣＰＵ１０２０と、ハードディスクドライブインタフェース１０３０と、ディスクドライブインタフェース１０４０と、シリアルポートインタフェース１０５０と、ビデオアダプタ１０６０と、ネットワークインタフェース１０７０とを有する。これらの各部は、バス１０８０によって接続される。

メモリ１０１０は、ＲＯＭ（Read Only Memory）１０１１およびＲＡＭ１０１２を含む。ＲＯＭ１０１１は、例えば、ＢＩＯＳ（Basic Input Output System）等のブートプログラムを記憶する。ハードディスクドライブインタフェース１０３０は、ハードディスクドライブ１０３１に接続される。ディスクドライブインタフェース１０４０は、ディスクドライブ１０４１に接続される。ディスクドライブ１０４１には、例えば、磁気ディスクや光ディスク等の着脱可能な記憶媒体が挿入される。シリアルポートインタフェース１０５０には、例えば、マウス１０５１およびキーボード１０５２が接続される。ビデオアダプタ１０６０には、例えば、ディスプレイ１０６１が接続される。

ここで、ハードディスクドライブ１０３１は、例えば、ＯＳ１０９１、アプリケーションプログラム１０９２、プログラムモジュール１０９３およびプログラムデータ１０９４を記憶する。上記実施形態で説明した各情報は、例えばハードディスクドライブ１０３１やメモリ１０１０に記憶される。

また、音声操作プログラムは、例えば、コンピュータ１０００によって実行される指令が記述されたプログラムモジュール１０９３として、ハードディスクドライブ１０３１に記憶される。具体的には、上記実施形態で説明した音声操作装置１０が実行する各処理が記述されたプログラムモジュール１０９３が、ハードディスクドライブ１０３１に記憶される。

また、音声操作プログラムによる情報処理に用いられるデータは、プログラムデータ１０９４として、例えば、ハードディスクドライブ１０３１に記憶される。そして、ＣＰＵ１０２０が、ハードディスクドライブ１０３１に記憶されたプログラムモジュール１０９３やプログラムデータ１０９４を必要に応じてＲＡＭ１０１２に読み出して、上述した各手順を実行する。

なお、音声操作プログラムに係るプログラムモジュール１０９３やプログラムデータ１０９４は、ハードディスクドライブ１０３１に記憶される場合に限られず、例えば、着脱可能な記憶媒体に記憶されて、ディスクドライブ１０４１等を介してＣＰＵ１０２０によって読み出されてもよい。あるいは、音声操作プログラムに係るプログラムモジュール１０９３やプログラムデータ１０９４は、ＬＡＮやＷＡＮ（Wide Area Network）等のネットワークを介して接続された他のコンピュータに記憶され、ネットワークインタフェース１０７０を介してＣＰＵ１０２０によって読み出されてもよい。

以上、本発明者によってなされた発明を適用した実施形態について説明したが、本実施形態による本発明の開示の一部をなす記述および図面により本発明は限定されることはない。すなわち、本実施形態に基づいて当業者等によりなされる他の実施形態、実施例および運用技術等は全て本発明の範疇に含まれる。

１０音声操作装置
１１入力部
１２出力部
１３通信制御部
１４記憶部
１４ａルール
１４ｂキー操作設定
１５制御部
１５ａ監視部
１５ｂ業務判定部
１５ｃ変換部
１５ｄコマンド判定部
１５ｅパラメータ取得部
１５ｆ操作部

Claims

既存システムの操作状況に基づいて、操作中の処理種別を判定する業務判定部と、
ＨＩＤ（Human Interface Device）の所定の操作中に入力された音声データをテキストデータに変換し、該ＨＩＤの操作内容に応じて、該テキストデータをコマンド判定または設定パラメータのいずれに用いるかを判定する変換部と、
コマンド判定に用いると判定された場合に、前記テキストデータと前記操作中の処理種別とを用いて、コマンドを判定するコマンド判定部と、
設定パラメータに用いると判定された場合に、前記テキストデータをパラメータとして用いて、判定された前記コマンドに対応した操作を前記既存システムに対して実行する操作部と、
を備えることを特徴とする音声操作装置。
前記処理種別と、該処理種別に対応する前記コマンドとを判定するルールを記憶する記憶部を、さらに備えることを特徴とする請求項１に記載の音声操作装置。
前記ルールは、前記コマンドに対応して設定するパラメータを指定する情報をさらに含むことを特徴とする請求項２に記載の音声操作装置。
前記ＨＩＤの操作内容を特定するキー操作設定を記憶する記憶部を、さらに備えることを特徴とする請求項１に記載の音声操作装置。
前記既存システムの操作状況を監視する監視部を、さらに備えることを特徴とする請求項１に記載の音声操作装置。
音声操作装置で実行される音声操作方法であって、
既存システムの操作状況に基づいて、操作中の処理種別を判定する業務判定工程と、
ＨＩＤ（Human Interface Device）の所定の操作中に入力された音声データをテキストデータに変換し、該ＨＩＤの操作内容に応じて、該テキストデータをコマンド判定または設定パラメータのいずれに用いるかを判定する変換工程と、
コマンド判定に用いると判定された場合に、前記テキストデータと前記操作中の処理種別とを用いて、コマンドを判定するコマンド判定工程と、
設定パラメータに用いると判定された場合に、前記テキストデータをパラメータとして用いて、判定された前記コマンドに対応した操作を前記既存システムに対して実行する操作工程と、
を含んだことを特徴とする音声操作方法。
コンピュータを請求項１～５のいずれか１項に記載の音声操作装置として機能させるための音声操作プログラム。