JP2013235570A - 機密情報の音声入力のための方法、コンピュータ・プログラム、およびシステム - Google Patents

機密情報の音声入力のための方法、コンピュータ・プログラム、およびシステム Download PDF

Info

Publication number
JP2013235570A
JP2013235570A JP2013079060A JP2013079060A JP2013235570A JP 2013235570 A JP2013235570 A JP 2013235570A JP 2013079060 A JP2013079060 A JP 2013079060A JP 2013079060 A JP2013079060 A JP 2013079060A JP 2013235570 A JP2013235570 A JP 2013235570A
Authority
JP
Japan
Prior art keywords
input
computer
entry field
implemented method
conversion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013079060A
Other languages
English (en)
Other versions
JP6202858B2 (ja
Inventor
John Kuragan Brian
ブライアン・ジョン・クラガン
Kevin Johlic Marc
マーク・ケヴィン・ジョリク
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2013235570A publication Critical patent/JP2013235570A/ja
Application granted granted Critical
Publication of JP6202858B2 publication Critical patent/JP6202858B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Abstract

【課題】情報の音声入力のための方法、システム、およびコンピュータ・プログラム製品が、例示的実施形態に提供される。
【解決手段】音声入力に対して変換規則が適用される。エントリ・フィールド入力が生成され、この変換規則により、音声入力とエントリ・フィールド入力とを区別することが可能であり、音声入力はエントリ・フィールド入力を難読化する。アプリケーションにエントリ・フィールド入力が提供され、エントリ・フィールドはアプリケーション内にデータ・エントリ・フィールドを読み込む際に有用である。
【選択図】 図3

Description

本発明は一般に、データ入力のための方法、システム、およびコンピュータ・プログラム製品に関する。より具体的に言えば、本発明は、機密情報の音声入力のための方法、システム、およびコンピュータ・プログラム製品に関する。
様々なコンピューティング・デバイスまたはデータ処理システム上で実行する多くのアプリケーションは、ユーザ入力を必要とする。しばしばユーザ入力とは、そのユーザ入力を受信するように指定されたデータ・エントリ・フィールド(entry field)(エントリ・フィールド)へのデータ入力である。
エントリ・フィールドは、ユーザ入力を受け入れることが可能なフォーム、文書、データベース、または任意の他のアプリケーション内のエントリ・フィールドとすることができる。こうしたアプリケーションを実行するデータ処理システムは、一般に入手可能なコンピュータ、リモート端末、またはポータブル・デバイスとすることが可能である。たとえばコンピュータは、スプレッドシート・セルすなわちエントリ・フィールド内で、データすなわちユーザ入力を受け入れることが可能な、スプレッドシート・アプリケーションを実行することができる。他の例として、スマートフォンは、パスワード・フィールドすなわちエントリ・フィールド内で、パスワードすなわちユーザ入力を受け入れるアプリケーションを実行することができる。
ユーザは、様々な方法で入力を提供することができる。たとえばユーザは、キーボードを使用してエントリ・フィールド内にテキストをタイプすることができる。他の例として、ユーザは、データ処理システムに関連付けられたマイクロフォンに向かって発話することで、音声で入力することが可能であり、これがテキストに変換され、エントリ・フィールドに挿入される。他の例としてユーザは、ポインティング・デバイスを用いるかまたは用いることなく、データ処理システムに関してジェスチャすることが可能であり、このジェスチャがユーザ入力として解釈される。その後ジェスチャは、エントリ・フィールド内へのデータ入力のためのテキストに変換される。
例示的実施形態は、情報の音声入力のための方法、システム、およびコンピュータ・プログラム製品を提供する。
ある実施形態は、プロセッサおよびメモリを使用して音声入力に対して変換規則を適用する。この実施形態はエントリ・フィールド入力を生成する。この変換規則は、音声入力をエントリ・フィールド入力とは区別されるものとすることを可能とし、音声入力はエントリ・フィールド入力を難読化する(obfuscate)。実施形態はアプリケーションにエントリ・フィールド入力を提供し、エントリ・フィールド入力はアプリケーション内のデータ・エントリ・フィールドに読み込むために使用される。
本発明の特徴と考えられる新規な特徴は、添付の特許請求の範囲に記載されている。しかしながら、本発明自体、ならびに好ましい使用方法、さらにその目的および利点は、例示的実施形態についての以下の詳細な説明を添付の図面と共に参照することによって、最も良く理解されるであろう。
例示的実施形態を内部に実装可能なデータ処理システムのネットワークを示す図表現である。 例示的実施形態を内部に実装可能なデータ処理システムを示すブロック図である。 例示的実施形態に従った機密情報の音声入力例を示すブロック図である。 例示的実施形態に従った音声入力アプリケーションの構成例を示すブロック図である。 例示的実施形態に従った音声入力アプリケーションにおける変換例を示すプロセス流れ図である。 例示的実施形態に従った機密情報の音声入力のプロセス例を示す流れ図である。
本明細書に記載された例示的実施形態との関連において、ユーザからの音声入力を受け入れるデータ処理システムは、マイクロフォンなどの音声捕捉デバイスを用いて構成されるものと想定される。音声入力とは、実施形態を使用して最終的にテキストに変換可能な音声パターンである。音声入力を実行する動作は、音声入力がデータ処理システムに提供される様式である。特に指定されていない限り、音声入力は人間が生成する音声パターン、機械が生成する音声パターン、人間の可聴範囲内の音声、極超短波または超低周波の音声、あるいはそれらの組み合わせを含むことができる。
例示的実施形態は、アイズフリーあるいはハンズフリーまたはその両方のデータ入力方法を使用する傾向が増えていることを認識している。音声入力は、ユーザが声、音、または発話を使用してデータ入力を提供することができる、アイズフリーおよびハンズフリー・ソリューションである。さらに例示的実施形態は、音声入力方法を使用して入力される何らかのデータがセキュリティに敏感な可能性があることを認識している。たとえば、携帯電話などのデータ処理システムに向かってパスワードを発話するユーザは、立ち聞きされることを避けたい可能性がある。患者の医療情報を音声で入力する医師は、音声入力の便利さを望むが、その情報を他人に聞かれるリスクについても懸念する可能性がある。
個人情報、データ・セキュリティ情報、認証情報、医療情報、および多くの他のカテゴリの情報は、広く機密情報とみなされる。しかしながら例示的実施形態は、その情報、または一般的に機密情報とみなされるデータに限定されることは意図されない。たとえば人の年齢に関する情報はその人にとっての機密情報であるが、他の人にとってはそうではない可能性がある。一般に、例示的実施形態の範囲内では、その入力が実施形態から恩恵を受けることのできる任意の情報を機密情報とみなすことができる。
例示的実施形態は、ポータブル・デバイスを含むがこれに限定されないデータ処理システム上での機密情報の音声入力に対処することが、音声入力の入力者(provider)に近接する他の人物またはデバイスによる意図的な盗聴または不可避の立ち聞きのリスクがあるために問題であることを認識している。障害のある人は特に、周囲に居る人物を検出できない可能性があるため、自分をプライベートな状況に引き離すことができない可能性があるため、および、彼らにとって音声入力が入力手段として唯一開かれたモダリティ(modality)である可能性があるため、こうした音声観察に対して脆弱である。
本発明を説明するために使用される例示的実施形態は、一般に、前述の問題および音声入力の実行に関する他の問題に対処し、解決する。例示的実施形態は、機密情報の音声入力のための方法、システム、およびコンピュータ・プログラム製品を提供する。
例示的実施形態は、ある入力および変換に関して単なる例として説明される。こうした説明は、本発明に限定されることは意図されていない。たとえば、所定のインデックスで文字を選択することによる音声入力の変換に関して説明される例示的実施形態は、制限なしに音声入力を変換する他の様式に関して実装可能である。
例示的実施形態は、あるデータ、データ構造、ファイル・システム、ファイル名、ディレクトリ、および経路(path)に関して、単なる例として説明される。こうした説明は、本発明に限定されることは意図されていない。たとえば、ローカル・アプリケーション名および経路に関して説明される例示的実施形態は、本発明の範囲内でリモート経路(path)上のアプリケーションとして実装可能である。
さらに例示的実施形態は、任意の種類のデータ、データ・ソース、または、データ・ネットワークを介したデータ・ソースへのアクセスに関して実装可能である。任意のタイプのデータ・ストレージ・デバイスは、本発明の範囲内で、データ処理システムでローカルにまたはデータ・ネットワークを介して、本発明の実施形態にデータを提供することができる。
例示的実施形態は、特定のコード、設計、アーキテクチャ、レイアウト、概略図、およびツールを使用して単なる例として説明され、例示的実施形態に限定するものではない。さらに例示的実施形態は、説明を明瞭にするために単なる例として、特定のソフトウェア、ツール、およびデータ処理環境を使用するいくつかのインスタンスで説明される。例示的実施形態は、他の同等または同様の目的の構造、システム、アプリケーション、またはアーキテクチャと共に使用することができる。例示的実施形態は、ハードウェア、ソフトウェア、またはそれらの組み合わせで実装可能である。
本開示における例は、単に説明を明瞭にするために使用され、例示的実施形態に限定されるものではない。追加のデータ、動作、アクション、タスク、アクティビティ、および操作は本開示から考案可能であり、例示的実施形態の範囲内で同等に企図される。
本明細書に列挙されるいずれの利点も、例示的実施形態に限定されることは意図されていない。追加または異なる利点は、特定の例示的実施形態によって実現可能である。さらに特定の例示的実施形態は、前述の利点のいくつかまたはすべてを有するか、またはいずれも有さない可能性がある。
図面を参照すると、特に図1および図2を参照すると、これらの図面は、例示的実施形態を内部に実装可能なデータ処理環境の例示的な図である。図1および図2は単なる例であり、異なる実施形態を内部に実装可能な環境に関していかなる制限も主張または示唆することは意図されていない。特定の実装は、以下の説明に基づいて、示された環境に対して多くの修正を行うことができる。
図1は、例示的実施形態を内部に実装可能なデータ処理システムのネットワークを示す図表現である。データ処理環境100は、例示的実施形態を内部に実装可能なコンピュータのネットワークである。データ処理環境100はネットワーク102を含む。ネットワーク102は、データ処理環境100内で互いに接続された様々なデバイスおよびコンピュータ間に通信リンクを提供するために使用される媒体である。ネットワーク102は、有線、無線の通信リンク、または光ファイバ・ケーブルなどの接続を含むことができる。サーバ104およびサーバ106は、ストレージ・ユニット108と共にネットワーク102に結合される。ソフトウェア・アプリケーションは、データ処理環境100内の任意のコンピュータ上で実行可能である。
加えて、クライアント110、112、および114もネットワーク102に結合される。サーバ104または106などのデータ処理システム、あるいはクライアント110、112、または114はデータを含むことが可能であり、その上で実行するソフトウェア・アプリケーションまたはソフトウェア・ツールを有することができる。
デバイス120は、ネットワーク102に接続されたポータブル・デバイスの例である。サーバ104および106のいずれか、クライアント110、112、および114のいずれか、または音声入力を受け入れるデバイス120には、マイクロフォンなどの音声捕捉デバイス(図示せず)が装備されている。例として、デバイス120は、エントリ・フィールド122を含むフォームを提示するアプリケーション(図示せず)を含む。ユーザ126からの音声124は、実施形態に従ってエントリ・フィールド122のためのデータに変換される音声入力を形成する。実施形態を実装するアプリケーションはデバイス120内で実行する。
サーバ104および106、ストレージ・ユニット108、ならびにクライアント110、112、および114は、有線接続、無線通信プロトコル、または他の好適なデータ接続を使用してネットワーク102に結合することができる。クライアント110、112、および114は、たとえばパーソナル・コンピュータまたはネットワーク・コンピュータとすることができる。
示された例では、サーバ104はブート・ファイル、オペレーティング・システム・イメージ、およびアプリケーションなどのデータを、クライアント110、112、および114に提供することができる。クライアント110、112、および114は、この例ではサーバ104に対するクライアントとすることができる。クライアント110、112、114、またはそれらの何らかの組み合わせは、それら独自のデータ、ブート・ファイル、オペレーティング・システム・イメージ、およびアプリケーションを含むことができる。データ処理環境100は、図示されていない追加のサーバ、クライアント、および他のデバイスを含むことができる。
示された例では、データ処理環境100はインターネットとすることができる。ネットワーク102は、伝送制御プロトコル/インターネット・プロトコル(TCP/IP)および他のプロトコルを使用して互いに通信する、ネットワークおよびゲートウェイの集合を表すことができる。インターネットの中心には、データおよびメッセージをルーティングする何千という商用、行政用、教育用、および他のコンピュータ・システムを含む、主要ノードまたはホスト・コンピュータ間のデータ通信リンクの基幹がある。もちろん、データ処理環境100は、たとえばイントラネット、ローカル・エリア・ネットワーク(LAN)、またはワイド・エリア・ネットワーク(WAN)などの、いくつかの異なるタイプのネットワークとしても実装可能である。図1は例として意図されたものであり、異なる例示的実施形態に対するアーキテクチャ上の制限としては意図されていない。
データ処理環境100は、他の用途の中でも特に、例示的実施形態を内部に実装可能なクライアント・サーバ環境を実装するために使用することができる。クライアント・サーバ環境は、ネットワーク全体にわたってソフトウェア・アプリケーションおよびデータを分散させ、結果としてクライアント・データ処理システムとサーバ・データ処理システムとの間での対話を使用することでアプリケーションを機能させることができる。データ処理環境100は、ネットワーク全体にわたって分散された相互運用可能なソフトウェア構成要素をコヒーレントなビジネス・アプリケーションとしてまとめてパッケージングすることができる、サービス指向アーキテクチャを採用することもできる。
図2を参照すると、この図は例示的実施形態を内部に実装可能なデータ処理システムのブロック図を示す。データ処理システム200は、図1におけるサーバ104またはクライアント110などのコンピュータの例であり、その内部に例示的実施形態のプロセスを実装するコンピュータ使用可能プログラム・コードまたは命令を例示的実施形態のために配置することができる。
示された例では、データ処理システム200は、ノース・ブリッジおよびメモリ・コントローラ・ハブ(NB/MCH)202ならびにサウス・ブリッジおよび入力/出力(I/O)コントローラ・ハブ(SB/ICH)204を含むハブ・アーキテクチャを採用する。処理ユニット206、メイン・メモリ208、およびグラフィクス・プロセッサ210は、ノース・ブリッジおよびメモリ・コントローラ・ハブ(NB/MCH)202に結合される。処理ユニット206は1つまたは複数のプロセッサを含むことが可能であり、1つまたは複数の異種プロセッサ・システムを使用して実装可能である。グラフィクス・プロセッサ210は、ある実装においてアクセラレーテッド・グラフィクス・ポート(AGP)を介してNB/MCHに結合可能である。
示された例では、ローカル・エリア・ネットワーク(LAN)アダプタ212はサウス・ブリッジおよびI/Oコントローラ・ハブ(SB/ICH)204に結合される。オーディオ・アダプタ216、キーボードおよびマウス・アダプタ220、モデム222、読み取り専用メモリ(ROM)224、ユニバーサル・シリアル・バス(USB)および他のポート232、ならびにPCI/PCIeデバイス234が、バス238を介してサウス・ブリッジおよびI/Oコントローラ・ハブ204に結合される。ハード・ディスク・ドライブ(HDD)226およびCD−ROM230は、バス240を介してサウス・ブリッジおよびI/Oコントローラ・ハブ204に結合される。PCI/PCIeデバイスは、たとえばイーサネット・アダプタ、アドイン・カード、およびノートブック・コンピュータ用のPCカードを含むことができる。PCIはカード・バス・コントローラを使用するが、PCIeは使用しない。ROM224は、たとえばフラッシュ・バイナリ入力/出力システム(BIOS)とすることができる。ハード・ディスク・ドライブ226およびCD−ROM230は、たとえば集積ドライブ・エレクトロニクス(IDE)またはシリアル拡張技術アタッチメント(SATA)インターフェースを使用することができる。スーパーI/O(SIO)デバイス236はサウス・ブリッジおよびI/Oコントローラ・ハブ(SB/ICH)204に結合することができる。
オペレーティング・システムは処理ユニット206上で実行する。オペレーティング・システムは、図2のデータ処理システム200内の様々な構成要素の制御を調整および提供する。オペレーティング・システムは、Microsoft(R)Windows(R)(MicrosoftおよびWindowsは、米国あるいは他の諸国またはその両方におけるMicrosoft Corporationの商標である)、またはLinux(R)(Linuxは、米国あるいは他の諸国またはその両方におけるLinus Torvaldsの商標である)などの市販のオペレーティング・システムとすることができる。Javaプログラミング・システムなどのオブジェクト指向プログラミング・システムは、オペレーティング・システムと共に実行可能であり、データ処理システム200上で実行するJavaプログラムまたはアプリケーションからオペレーティング・システムへの呼び出しを提供する(JavaおよびすべてのJavaベースの商標およびロゴは、Oracleあるいはその関連会社またはその両方の商標または登録商標である)。
オペレーティング・システム、オブジェクト指向プログラミング・システム、例示的実施形態のプロセス、およびアプリケーションまたはプログラムに関するプログラム命令は、ハード・ディスク・ドライブ226などのストレージ・デバイス上に配置され、処理ユニット206による実行のために、たとえばメイン・メモリ208、読み取り専用メモリ224、または1つまたは複数の周辺デバイスなどのメモリにロードすることができる。プログラム命令は不揮発性メモリ内に永続的に格納すること、および、そこからロードすることまたは所定の位置で実行することのいずれかも可能である。たとえば実施形態に従った統合プログラムを不揮発性メモリに格納し、そこからDRAMにロードすることが可能である。
図1〜図2のハードウェアは、実装に応じて変更可能である。図1〜図2に示されたハードウェアに加えて、またはそれらに代わって、フラッシュ・メモリ、等価の不揮発性メモリ、または光ディスク・デバイスなどの、他の内部ハードウェアまたは周辺デバイスを使用することができる。加えて、例示的実施形態のプロセスをマルチプロセッサ・データ処理システムに適用することもできる。
いくつかの例では、データ処理システム200は、オペレーティング・システム・ファイルあるいはユーザ生成データまたはその両方を格納するための不揮発性メモリを提供するように、一般にフラッシュ・メモリと共に構成された、携帯情報端末(PDA)とすることができる。バス・システムは、システム・バス、I/Oバス、およびPCIバスなどの、1つまたは複数のバスを備えることができる。もちろんバス・システムは、ファブリックまたはアーキテクチャに接続された異なる構成要素またはデバイス間にデータの転送を提供する、任意のタイプの通信ファブリックまたはアーキテクチャを使用して実装することができる。
通信ユニットは、モデムまたはネットワーク・アダプタなどの、データを送信および受信するために使用される1つまたは複数のデバイスを含むことができる。メモリは、たとえばメイン・メモリ208、またはノース・ブリッジおよびメモリ・コントローラ・ハブ202内に見られるキャッシュなどのキャッシュとすることができる。処理ユニットは、1つまたは複数のプロセッサまたはCPUを含むことができる。
図1〜図2に示された例および前述の例は、アーキテクチャ上の制限を示唆することを意味していない。たとえばデータ処理システム200は、PDAの形を取ることに加えて、タブレット・コンピュータ、ラップトップ・コンピュータ、または電話デバイスとすることもできる。
図3を参照すると、この図は、例示的実施形態に従った機密情報の音声入力例のブロック図を示す。データ処理システム302は、図1のサーバ104および106、クライアント110、112、および114、またはデバイス120のうちのいずれかと同様である。単なる例として、またそれに対する例示的実施形態のいかなる制限も示唆することなく、データ処理システム302は図1のデバイス120と同様に示される。
ユーザ304は、データ処理システム302内のマイクロフォン308を介してデータ処理システム302に音声入力306を提供する。データ処理システム302は、実施形態を実装する音声入力アプリケーション310を含む。データ処理システム302内で実行する他のアプリケーション312は、エントリ・フィールド314を提示する。エントリ・フィールド314にはデータが読み込まれることになる。
例示的実施形態に従って動作する音声入力アプリケーション310は、エントリ・フィールド入力314内への音声入力306をエントリ・フィールド316のためのデータ318に変換するプロセスを含む。例としてエントリ・フィールド316は、ユーザ304によって、またはデータ処理システム302内のプロセスによって、データ入力のために選択される。音声入力306のエントリ・フィールド入力316への変換は、1つまたは複数の変換規則によって実行される。変換規則とは、音声入力306がエントリ・フィールド入力316へと処理される際に従う論理である。
たとえば変換規則の例が、音声入力306内のあらゆる単語の2番目の文字を使用してエントリ・フィールド入力316が構築されることであるものと想定してみる。たとえばユーザ304が音声入力306として、「EPILOG CAMERA ASSIGN ESSENTIAL」という句を発話する。他の動作の中でも特に、音声入力アプリケーション310はその変換規則を使用して、認識された単語「EPILOG」、「CAMERA」、「ASSIGN」、および「ESSENTIAL」からそれぞれ「P」、「A」、「S」、および「S」の文字が選択されるように、その句の変換を実行する。この文字をまとめて「PASS」を形成し、これがエントリ・フィールド314への入力となるデータである。
音声入力アプリケーション310は、音声入力の句「EPILOG CAMERA ASSIGN ESSENTIAL」から単語「PASS」を構築する。音声入力アプリケーション310は、単語「PASS」のエントリ・フィールド入力316をアプリケーション312に提供する。アプリケーション312はこのデータ「PASS」をエントリ・フィールド314に適用する。この例の変換規則を使用して、この例の様式で動作すると、ユーザ304が音声入力306を発話した場合、実施形態が実際のデータ「PASS」を盗聴または立ち聞きから難読化することができる。
示された例は、音声入力から認識された単語へのオフセットに基づいて、1ステップ変換規則を使用する。同様に実施形態は、任意の好適な変換規則を使用して、所与の音声入力306を適切なエントリ・フィールド入力316に変換することができる。
たとえば他の変換規則は、2ステップ変換プロセスを含むことができる。ユーザは頭字語を発話することが可能であり、第1の変換ステップはこの頭字語を完全なテキスト形式に変換し、第2の変換ステップはあるオフセットで文字を完全なテキスト単語に識別する。したがってこの2ステップ変換例の動作例では、音声入力として発話された「E.D.I」が結果として「Electronic Data Interchange」となり、これが各単語の最初の2文字を選択することにより、結果として「eldain」となり、「eldain」はエントリ・フィールド入力を形成する。
他の例として、他の変換規則は3ステップ変換プロセスを含むことができる。たとえばユーザは「England」と発話することができる。変換プロセスでの第1のステップは、辞書を使用するなどによって、国の名前が発話されていることを認識する。第2のステップは、データベースを使用するなどによって、その国の首都、すなわち「London」を識別する。第3のステップは、ジオコーディング(geocoding)アプリケーションを使用してその都市の緯度および経度が51および0であることを特定し、この数字を連結して数字の組み合わせ「510」を形成する。したがって実施形態は、ユーザが「510」の代わりに「England」と言えるようにすることによって、数字の組み合わせ(510)の機密情報を難読化する。
任意の数およびタイプの変換を組み合わせて、音声入力アプリケーション310で使用するための変換規則を作成することができる。このように使用可能な変換のさらにいくつかの例は、発話された単語または発話された単語から導出された単語内でのあるインデックス・オフセットでの文字セット、その名前が発話されたかまたは発話された単語から導出された都市の緯度および経度、タイムゾーン、または人口、日付の数字に対応する文字に変換された発話された日付、カスタム辞書を使用して数字に変換された文字および日付を形成する数字、数として使用される単語の長さ、1つまたは複数のリポジトリを使用することによって名前および数を示す名前として認識された単語、発話または導出されたn番目の単語のみを使用すること、あるいは、発話または導出されたn文字より長い単語のみを考慮することである。
ある実施形態では、ある結果を達成するための制御の単語として、大文字または特殊なキーボード文字などの、キーワードのセットを割り当てることができる。ある実施形態は、キーワードの使用が容易に予測できないように、キーワードのセットを定義する。たとえば重さの単語(たとえば「重い」、「トン」、「ポンド」、または「キロ」)は、結果として記号「#」が入力されることになる。例示的実施形態の範囲を逸脱することなく、他の方式も同様に使用することができる。
任意数のこれらおよび他の同様に使用可能な変換を組み合わせて、音声入力アプリケーション310における変換を形成することができる。さらにある実施形態では、変換の回数、変換の組み合わせ、またはその両方を変更することができる。たとえば一実施形態は、ユーザが存在できる環境に応じて変換のタイプを変更する。たとえばある実施形態は、ユーザが雑音の多い環境に居ることを、マイクロフォン308を通じて感知することができる。したがって音声入力アプリケーション310は、ユーザがより静かな環境(したがって、恐らくはユーザの近隣に立ち聞きする人が少ない場所)に居る時よりもより複雑な変換を使用するように決定する。
他の実施形態として、ある実施形態は、ユーザが雑音の多い環境に居ることを、マイクロフォン308を通じて感知することができる。したがって音声入力アプリケーション310は、ユーザがより静かな環境に居る時よりも複雑でない変換で、より短い単語を使用できるように決定する(恐らくは、雑音の多い区域では静かな区域よりも音声認識が困難であるため)。その逆に、複雑な単語は、その固有の音質によってしばしば容易に認識されるため、ある実施形態の音声入力アプリケーション310は、ユーザが雑音の多い環境内でそうした音質を備える特に指定された単語を使用できるようにする。
ある実施形態は、音声入力アプリケーション310が異なるユーザに対して異なる変換を使用するように、ユーザ特有の変換プロセスを作成することができる。ある実施形態は、発話された単語または導出された単語から認識される場合、単語を表示することもできる。ある実施形態は、発話された単語または導出された単語から認識される場合、単語を読み返すことも可能である。ある実施形態は、ユーザが認識された単語を拒否し、音声入力を再試行できるようにすることも可能である。
ある実施形態は、ある単語の使用を完全に禁止することもできる。ある実施形態は、単語を所定の回数の音声入力後にのみ音声入力で再使用できるようにすることなどによって、単語の頻繁な再使用を禁止することができる。ある実施形態は、同じ音声入力における単語の反復を禁止することができる。ある実施形態は、ある単語の代替形式を許可または禁止することができる。ある実施形態は、「Q」または「X」などの稀な文字を備えた単語に対して、こうした規則を緩和することができる。ある実施形態は、異なるエントリ・フィールドに対して、異なる変換規則またはそれらの組み合わせを使用することができる。
本明細書で説明される変換および追加の機能は単なる例示的なものであって、実施形態を限定するものではない。当業者であれば、この開示から多くの他の変換および変換プロセスの修正を想起することが可能であり、例示的実施形態の範囲内で同様に企図される。
図4を参照すると、この図は例示的実施形態に従った音声入力アプリケーションの構成例を示すブロック図である。音声入力アプリケーション400は図3の音声入力アプリケーション310として使用することができる。
示された構成は、音声入力アプリケーション400の様々な機能構成要素を実装する、単なる例示的様式である。当業者であれば、そこから同様の機能を達成するために、異なる方法で音声入力アプリケーション400を実装することが可能であり、それらの代替構成は、例示的実施形態の範囲内で企図される。
示された構成例によれば、音声入力アプリケーション400は音声入力402を受信する。音声入力アプリケーション400は、ユーザまたはシステムによって提供される音声入力を受信する402ための構成要素404を含む。構成要素406は受信した音声入力を処理する。構成要素408は処理された音声入力を変換する。構成要素410は処理された音声入力から構築されたエントリ・フィールド入力を送信する。エントリ・フィールド入力412は音声入力アプリケーション400によって生成される出力であり、他のアプリケーション内にエントリ・フィールドを読み込むために使用可能である。
音声入力アプリケーション400内に様々な構成要素が示されているが、ある実装では、例示的実施形態の範囲を逸脱することなく、音声入力アプリケーション400の外部に構成要素の機能を実装することができる。たとえば一実施形態では、構成要素406、408、またはそれらの組み合わせは、ウェブ・サービスの形などのように、音声入力アプリケーション400の外部に実装される。
構成要素406などで受信した音声入力の処理は、一般にユーザおよびユーザ入力に関し、特に音声入力に関する他の動作を含むことができる。たとえば一実施形態では、構成要素406は認証および許可機能(まとめて許可機能)414を実装し、これを、音声入力402を提供するユーザまたはシステムがその実行を許可されるかどうか、音声入力402が許可されたユーザからのものであるかどうか、音声入力402が許可された様式で提供されているかどうか、またはそれらの組み合わせを決定するために使用することができる。他の実施形態では、構成要素406は音声入力アプリケーション400の外部のサービスまたはアプリケーションによって提供可能な許可機能414を呼び出す。
一実施形態では、構成要素406は音声テキスト変換などの知られた音声処理機能のための音声認識機能416を同様に実装するかまたは呼び出すことができる。他の実施形態では、構成要素406は他の機能418を同様に実装するかまたは呼び出すことができる。一例として、他の機能418は、雑音除去または低減、頭字語の拡張または長形式の短縮、代替スペリング選択などの、事前変換機能を含むことができる。いくつかの他の例として、他の機能418は、1つまたは複数のカスタムまたは標準辞書、1つまたは複数のカスタムまたは標準シソーラスを呼び出すこと、あるいは音声入力402内で認識されるかまたはそこから導出された単語または句の修正または訂正を実行することを、含むことができる。
ある実施形態では、構成要素408は変換規則のリポジトリ420を使用する。構成要素408は、処理された音声入力の変換を実行する際に、リポジトリ420から1つまたは複数の変換規則を選択する。
図5を参照すると、この図は例示的実施形態に従った音声入力アプリケーションにおける変換例のプロセス流れ図を示す。プロセス500は、図4の音声入力アプリケーション400内で実装可能である。
ユーザまたはシステムが頭字語「IBM」を含む音声入力502を提供すると想定してみる(IBMおよびInternational Business Machinesは、米国および諸外国におけるインターナショナル・ビジネス・マシーンズ・コーポレーションの商標である)。処理504は音声入力502の入力者を認証し、音声入力502で音声認識を実行し、認識された音声を処理する。処理504の結果として認識された音声入力506が生じ、プロセス500はこれを頭字語として認識する。事前変換修正508は、頭字語IBMを対応する長形式の「International Business Machines」に修正し、これが処理された音声入力510を形成する。
プロセス500は1つまたは複数の選択された変換規則512を処理された音声入力510に適用する。たとえば選択された変換規則は、処理された音声入力510内の各単語の3番目の文字を選択するものとすることができる。選択された変換規則512の適用の結果として、エントリ・フィールド入力514が生じる。上記の例を使用して、「TSC」がエントリ・フィールド入力514に対応するデータを形成する。プロセス500はエントリ・フィールド入力514を、エントリ・フィールド内でデータを使用するアプリケーションに送信する。
図6を参照すると、この図は例示的実施形態に従った機密情報の音声入力のプロセス例の流れ図を示す。プロセス600は、図4の音声入力アプリケーション400内に実装可能である。
プロセス600は、音声入力を受信することによって開始される(ステップ602)。プロセス600は、オプションで、周辺雑音または音響などに関する環境検出、デフォルトの変換規則を使用する代わりの変換規則の選択、入力者認証、音声認識、またはそれらの組み合わせなどを実行することができる(ステップ604)。
一実施形態では、変換規則は、ある変換規則の使用を事前設定することによって自動的に選択される。こうした変換規則の選択方法では、ユーザは事前設定された変換規則に気付く。
他の実施形態では、音声入力アプリケーションは、使用されている変換規則に関して十分個人的または秘密裡にユーザに通知する。たとえばある実施形態は、イヤフォンが使用されていることを検出し、個別オーディオ・アナウンスを介して「第2文字規則を使用すること」をユーザにアドバイスする。
他の実施形態では、ユーザはユーザ・インターフェースを使用して変換規則セットから変換規則のサブセットを選択する。たとえばユーザは、物理またはソフトウェア生成ボタン、デバイスのジャイロスコープ動作、あるいは選択を実行するための任意の好適な種類のジェスチャを使用することができる。
他の実施形態では、ユーザは、発話された単語、コードワード、コマンド、またはキーワードを使用して、変換規則セットから変換規則のサブセットを選択する。たとえば一実施形態では、「第2文字規則」を使用させるために、ユーザは規則を示すための第1の単語を発話する。「Broccoli Epilog Camera AssignEssential」では、第1の単語を使用して残りの単語を解釈するための変換規則を選択する。単語「Broccoli」からの文字「B」はアルファベットの第2文字であり、実施形態によって、ユーザがそれに続く各単語の第2文字を使用したいこと、すなわち前述の例で説明した第2文字規則を示すために使用される。
プロセス600は、事前変換処理を音声入力に適用する(ステップ606)。プロセス600は、ステップ606を必要な回数だけ反復することによって、任意回数の事前変換処理を適用することができる。たとえばプロセス600は、話者非依存または話者依存の音声認識を使用するために実装可能である。一実施形態では、プロセス600は、ユーザの生体認証を容易にする、トレーニング・セットとして以前に使用されたユーザの音声に関する認識を改善する、次善の環境での音声認識の精度を向上させる、またはそれらの組み合わせのために、話者依存音声認識を使用するために実装される。
プロセス600は、1つまたは複数のデフォルトまたは選択された変換規則に従って、処理された音声入力を変換する(ステップ608)。プロセス600は、この変換からエントリ・フィールド入力を生成する(ステップ610)。プロセス600は、このエントリ・フィールド入力をエントリ・フィールドに出力する(ステップ612)。その後、プロセス600は終了する。
図面内の流れ図およびブロック図は、本発明の様々な実施形態に従ったシステム、方法、およびコンピュータ・プログラム製品の可能な実装のアーキテクチャ、機能、および動作を示す。この点で、流れ図またはブロック図内の各ブロックは、指定された論理機能を実装するための1つまたは複数の実行可能命令を含む、モジュール、セグメント、またはコードの一部を表すことができる。いくつかの代替の実装では、ブロック内に示された機能が図面内に示された順序とは異なる順序で実行可能であることにも留意されたい。たとえば、連続して示される2つのブロックは実際にはほぼ同時に実行可能であるか、ブロックは関連する機能に応じて時には逆の順序で実行可能である。ブロック図あるいは流れ図またはその両方の各ブロックは、指定された機能または動作を実行する特定用途向けハードウェアベース・システム、あるいは特定用途向けハードウェアおよびコンピュータ命令の組み合わせによって実装可能であることにも留意されよう。
このようにして、コンピュータ実装の方法、システム、およびコンピュータ・プログラム製品が、機密情報の音声入力のための例示的実施形態内に提供される。ある実施形態は、あるアプリケーションにおいて音声認識とデータ入力との間に論理の層として実装可能である。ある実施形態は、ユーザまたはシステムが1つの音声パターンを生成できるようにする一方で、音声パターンから計算された無関係のデータを入力することによって、機密情報を難読化する。
音声パターンのプロバイダは、ある実施形態をいくつかのエントリ・フィールドに対しては選択的に使用し、他に対しては使用しないことができる。ある実施形態は、変換規則の選択肢を音声パターンのプロバイダに提供することができるか、または変換規則を自動的に選択してよい。
ある実施形態は、生体認証などの他のデータ・セキュリティ機能および他の方法と共に実装可能である。たとえばある実施形態は、ユーザ位置の全地球測位システム(GPS)を介した位置把握を使用して、ユーザが安全な位置に居るかどうか、および強力な変換規則または緩い変換規則のいずれを使用するかを決定することができる。
当業者であれば理解されるように、本発明の態様はシステム、方法、またはコンピュータ・プログラム製品として具体化することができる。したがって本発明の態様は、完全にハードウェア実施形態、完全にソフトウェア実施形態(ファームウェア、常駐ソフトウェア、マイクロコードなどを含む)、あるいは、本明細書ではすべてが全体として「回路」、「モジュール」、または「システム」と呼ばれる場合のあるソフトウェアとハードウェアの態様を組み合わせた実施形態の、形を取ることができる。さらに本発明の態様は、1つまたは複数のコンピュータ読み取り可能ストレージ・デバイス、またはその上に具体化されたコンピュータ読み取り可能プログラム・コードを有するコンピュータ読み取り可能媒体内に具体化された、コンピュータ・プログラム製品の形を取ることができる。
1つまたは複数のコンピュータ読み取り可能ストレージ・デバイスあるいはコンピュータ読み取り可能媒体の任意の組み合わせを使用することができる。コンピュータ読み取り可能媒体は、コンピュータ読み取り可能信号媒体またはコンピュータ読み取り可能記憶媒体とすることができる。コンピュータ読み取り可能ストレージ・デバイスは、たとえば、電子、磁気、光、電磁、赤外線、または半導体のシステム、装置、またはデバイス、あるいはそれらの任意の好適な組み合わせとすることができるが、これらに限定されるものではない。コンピュータ読み取り可能ストレージ・デバイスのより具体的な例(非網羅的リスト)は、1本または複数本のワイヤを有する電気接続、ポータブル・コンピュータ・ディスケット、ハード・ディスク、ランダム・アクセス・メモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROMまたはフラッシュ・メモリ)、光ファイバ、ポータブル・コンパクト・ディスク読み取り専用メモリ(CD−ROM)、光ストレージ・デバイス、磁気ストレージ・デバイス、またはそれらの任意の好適な組み合わせを含むものである。本書との関連において、コンピュータ読み取り可能ストレージ・デバイスは、命令実行のシステム、装置、またはデバイスによって、あるいはそれらに関連して使用するためのプログラムを含むかまたは格納することが可能な、任意の有形のデバイスまたは媒体とすることができる。
コンピュータ読み取り可能ストレージ・デバイスまたはコンピュータ読み取り可能媒体上に具体化されたプログラム・コードは、無線、有線、光ファイバ・ケーブル、RFなど、またはそれらの任意の好適な組み合わせを含むがこれらに限定されない任意の適切な媒体を使用して、伝送可能である。
本発明の態様に関する動作を実行するためのコンピュータ・プログラム・コードは、Java、Smalltalk、C++などのオブジェクト指向プログラミング言語、および、「C」プログラミング言語または同様のプログラミング言語などの従来の手続き型プログラミング言語を含む、1つまたは複数のプログラミング言語の任意の組み合わせで作成可能である。プログラム・コードは、完全にユーザのコンピュータ上、部分的にユーザのコンピュータ上、スタンドアロン型ソフトウェア・パッケージとして、一部はユーザのコンピュータ上および一部はリモート・コンピュータ上、または、完全にリモート・コンピュータまたはサーバ上で、実行可能である。後者のシナリオでは、リモート・コンピュータは、ローカル・エリア・ネットワーク(LAN)またはワイド・エリア・ネットワーク(WAN)を含む任意のタイプのネットワークを介して、ユーザのコンピュータに接続することができるか、あるいは(たとえばインターネット・サービス・プロバイダを使用するインターネットを介して)外部コンピュータに接続することができる。
本明細書では、本発明の実施形態に従った方法、装置(システム)、およびコンピュータ・プログラム製品の流れ図あるいはブロック図またはその両方を参照しながら、本発明の態様について説明している。流れ図あるいはブロック図またはその両方の各ブロック、および、流れ図あるいはブロック図またはその両方におけるブロックの組み合わせは、コンピュータ・プログラム命令によって実装可能であることを理解されよう。これらのコンピュータ・プログラム命令は、1つまたは複数の汎用コンピュータ、特定用途向けコンピュータ、または機械を作製するための他のプログラマブル・データ処理装置の、1つまたは複数のプロセッサに提供可能であり、結果として命令は、コンピュータまたは他のプログラマブル・データ処理装置の1つまたは複数のプロセッサを介して実行し、流れ図あるいはブロック図またはその両方のブロックに指定された機能/動作を実装するための手段を作成することになる。
これらのコンピュータ・プログラム命令は、1つまたは複数のコンピュータ、1つまたは複数の他のプログラマブル・データ処理装置、あるいは1つまたは複数の他のデバイスに対して、特定の様式で機能するように指示することが可能な、1つまたは複数のコンピュータ読み取り可能ストレージ・デバイスまたはコンピュータ読み取り可能媒体内にも格納可能であり、結果として、1つまたは複数のコンピュータ読み取り可能ストレージ・デバイスまたはコンピュータ読み取り可能媒体内に格納された命令は、流れ図あるいはブロック図またはその両方のブロックに指定された機能/動作を実装する命令を含む製品を作製することになる。
コンピュータ・プログラム命令は、コンピュータ実装プロセスを生成するために、1つまたは複数のコンピュータ、1つまたは複数の他のプログラマブル・データ処理装置、あるいは1つまたは複数の他のデバイス上で一連の動作ステップを実行させるために、1つまたは複数のコンピュータ、1つまたは複数の他のプログラマブル・データ処理装置、あるいは1つまたは複数の他のデバイス上にロードすることも可能であり、結果として、1つまたは複数のコンピュータ、1つまたは複数の他のプログラマブル・データ処理装置、あるいは1つまたは複数の他のデバイス上で実行する命令が、流れ図あるいはブロック図またはその両方のブロックに指定された機能/動作を実装するためのプロセスを提供することになる。
本明細書で使用される用語は、単に特定の実施形態を説明するためのものであり、本発明を限定することは意図されていない。本明細書で使用される場合、単数形「a」、「an」、および「the」は、文脈に明確に示されていない限り、複数形も含むことが意図される。さらに、「comprise(含む)」あるいは「comprising(含んでいる)」またはその両方の用語は、本明細書で使用される場合、記載された機能、整数、ステップ、動作、要素、あるいは構成要素、またはそれらすべての存在を指定するものであるが、1つまたは複数の他の機能、整数、ステップ、動作、要素、構成要素、あるいはそれらのグループ、またはそれらすべての存在、または追加を除外するものではないことを理解されよう。
以下の特許請求の範囲におけるすべての手段またはステップならびに機能要素の対応する構造、材料、動作、および等価物は、具体的に請求された他の請求要素と組み合わせて機能を実行するための任意の他の構造、材料、または動作を含むことが意図されている。本発明の説明は、例示および説明のために提示されてきたものであり、開示された形の本発明を網羅するかまたはこれに限定されることは意図されていない。当業者であれば、本発明の範囲および趣旨を逸脱することなく、多くの修正および変形が明らかとなろう。実施形態は、本発明の原理および実際の適用例を最も良く説明するように、ならびに、他の当業者が、企図された特定の用途に適した様々な修正を伴う様々な実施形態について本発明を理解できるように、選択および説明されたものである。
100 データ処理環境
102 ネットワーク
104、106 サーバ
108 ユニット
110 クライアント
120、236 デバイス
122 フィールド
124 音声
126、304 ユーザ
200、302 データ処理システム
202、204 ハブ
206 処理ユニット
208 メモリ
210 プロセッサ
212、216、220 アダプタ
222 モデム
224 読み取り専用メモリ
226 ドライブ
232 ポート
234 PCIeデバイス
238、240 バス
306、402 音声入力
308 マイクロフォン
310、400 音声入力アプリケーション
312 アプリケーション
414 許可機能
416 音声認識機能
418 機能
420 リポジトリ
500 プロセス
502、506、510 音声入力
508 事前変換修正
512 変換規則
514 フィールド入力

Claims (20)

  1. プロセッサおよびメモリを使用して音声入力に対して変換規則を適用すること、
    エントリ・フィールド入力を生成することであって、前記変換規則は、前記音声入力が前記エントリ・フィールド入力とは区別されるものであることを可能とし、前記音声入力は前記エントリ・フィールド入力を難読化する、生成すること、および
    アプリケーションに前記エントリ・フィールド入力を提供することであって、前記エントリ・フィールド入力は前記アプリケーション内のデータ・エントリ・フィールドに読み込むために使用される、提供すること、
    を含む、情報の音声入力のためのコンピュータ実装方法。
  2. 前記変換規則が変換規則リポジトリから選択される、請求項1に記載のコンピュータ実装方法。
  3. 入力を受信することであって、前記入力は前記変換規則を選択するために使用される、受信すること、
    をさらに含む、請求項2に記載のコンピュータ実装方法。
  4. 前記入力が発話された入力であり、前記発話された入力は、前記発話された入力の目的として前記変換規則を選択することを難読化する、請求項3に記載のコンピュータ実装方法。
  5. 前記変換規則がデフォルトの変換規則に置き換えられる、請求項2に記載のコンピュータ実装方法。
  6. 前記音声入力を受信する前に、前記選択された変換規則に関して前記音声入力の入力者に通知すること、
    をさらに含む、請求項2に記載のコンピュータ実装方法。
  7. 前記音声入力に対して事前変換処理を適用することであって、前記事前変換処理は前記音声入力の入力者を認証することを含む、適用すること、
    をさらに含む、請求項1に記載のコンピュータ実装方法。
  8. 前記音声入力に対して事前変換処理を適用することであって、前記事前変換処理は前記音声入力について音声認識を実行することを含む、適用すること、
    をさらに含む、請求項1に記載のコンピュータ実装方法。
  9. 前記音声入力が生成される環境の特徴を検出すること、および
    前記環境の前記特徴に応答して前記変換規則を選択すること、
    をさらに含む、請求項1に記載のコンピュータ実装方法。
  10. 前記音声入力を受信すること、
    をさらに含む、請求項1に記載のコンピュータ実装方法。
  11. 前記音声入力がデータ処理システムによって提供される、請求項1に記載のコンピュータ実装方法。
  12. 前記変換規則が、辞書を使用して前記音声入力に含まれる頭字語を長形式の変換(long-form translation)に拡張し、
    前記頭字語に対応する前記長形式の変換に対して第2の変換規則を適用すること、
    をさらに含む、請求項1に記載のコンピュータ実装方法。
  13. 前記辞書が前記音声入力の入力者に対応するカスタム辞書である、請求項12に記載のコンピュータ実装方法。
  14. 前記変換規則が、前記音声入力の一部に対応する単語内の所定のオフセットの文字を選択し、前記文字が前記エントリ・フィールド入力の一部を形成する、請求項1に記載のコンピュータ実装方法。
  15. 前記変換規則が複数の変換規則であり、前記複数の変換規則のそれぞれが、事前変換処理中に前記音声入力に対して所定の順序で実行される、請求項1に記載のコンピュータ実装方法。
  16. 前記音声入力が少なくとも1つの単語を含み、前記少なくとも1つの単語が、以前の音声入力における前記少なくとも1つの単語の使用に依存して受け入れられる、請求項1に記載のコンピュータ実装方法。
  17. 情報の音声入力のためのコンピュータ使用可能コードを含むコンピュータ使用可能記憶媒体を備えるコンピュータ使用可能プログラムであって、前記コンピュータ使用可能コードは、
    プロセッサおよびメモリを使用して音声入力に対して変換規則を適用ためのコンピュータ使用可能コードと、
    エントリ・フィールド入力を生成するためのコンピュータ使用可能コードであって、前記変換規則は、前記音声入力と前記エントリ・フィールド入力とを区別することを可能とし、前記音声入力は前記エントリ・フィールド入力を難読化する、生成するためのコンピュータ使用可能コードと、
    アプリケーションに前記エントリ・フィールド入力を提供するためのコンピュータ使用可能コードであって、前記エントリ・フィールド入力は前記アプリケーション内のデータ・エントリ・フィールドに読み込むために使用される、提供するためのコンピュータ使用可能コードと、
    を含む、コンピュータ使用可能プログラム。
  18. 前記コンピュータ使用可能コードはデータ処理システム内のコンピュータ読み取り可能記憶媒体に格納され、前記コンピュータ使用可能コードはリモート・データ処理システムからネットワークを介して転送される、請求項17に記載のコンピュータ使用可能プログラム。
  19. 前記コンピュータ使用可能コードはサーバ・データ処理システム内のコンピュータ読み取り可能記憶媒体に格納され、前記コンピュータ使用可能コードは、リモート・データ処理システムに関連付けられたコンピュータ読み取り可能記憶媒体内で使用するために、前記リモート・データ処理システムへネットワークを介してダウンロードされる、請求項17に記載のコンピュータ使用可能プログラム。
  20. 情報の音声入力のためのデータ処理システムであって、
    記憶媒体を含むストレージ・デバイスであって、前記ストレージ・デバイスはコンピュータ使用可能プログラム・コードを格納する、ストレージ・デバイスと、
    プロセッサであって、前記プロセッサは前記コンピュータ使用可能プログラム・コードを実行し、前記コンピュータ使用可能プログラム・コードは、
    プロセッサおよびメモリを使用して音声入力に対して変換規則を適用ためのコンピュータ使用可能コード、
    エントリ・フィールド入力を生成するためのコンピュータ使用可能コードであって、前記変換規則は、前記音声入力と前記エントリ・フィールド入力とを区別することを可能とし、前記音声入力は前記エントリ・フィールド入力を難読化する、生成するためのコンピュータ使用可能コード、および
    アプリケーションに前記エントリ・フィールド入力を提供するためのコンピュータ使用可能コードであって、前記エントリ・フィールド入力は前記アプリケーション内のデータ・エントリ・フィールドに読み込むために使用される、提供するためのコンピュータ使用可能コード、
    を含む、プロセッサと、
    を備える、データ処理システム。
JP2013079060A 2012-05-03 2013-04-05 機密情報の音声入力のための方法、コンピュータ・プログラム、およびシステム Expired - Fee Related JP6202858B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US13/463377 2012-05-03
US13/463,377 US8903726B2 (en) 2012-05-03 2012-05-03 Voice entry of sensitive information

Publications (2)

Publication Number Publication Date
JP2013235570A true JP2013235570A (ja) 2013-11-21
JP6202858B2 JP6202858B2 (ja) 2017-09-27

Family

ID=49384605

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013079060A Expired - Fee Related JP6202858B2 (ja) 2012-05-03 2013-04-05 機密情報の音声入力のための方法、コンピュータ・プログラム、およびシステム

Country Status (4)

Country Link
US (1) US8903726B2 (ja)
JP (1) JP6202858B2 (ja)
CN (1) CN103383638B (ja)
DE (1) DE102013206979A1 (ja)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9298703B2 (en) 2013-02-08 2016-03-29 Machine Zone, Inc. Systems and methods for incentivizing user feedback for translation processing
US9031829B2 (en) 2013-02-08 2015-05-12 Machine Zone, Inc. Systems and methods for multi-user multi-lingual communications
US9600473B2 (en) 2013-02-08 2017-03-21 Machine Zone, Inc. Systems and methods for multi-user multi-lingual communications
US8996352B2 (en) 2013-02-08 2015-03-31 Machine Zone, Inc. Systems and methods for correcting translations in multi-user multi-lingual communications
US9231898B2 (en) * 2013-02-08 2016-01-05 Machine Zone, Inc. Systems and methods for multi-user multi-lingual communications
US10650103B2 (en) 2013-02-08 2020-05-12 Mz Ip Holdings, Llc Systems and methods for incentivizing user feedback for translation processing
GB2516419A (en) * 2013-06-14 2015-01-28 Mastercard International Inc A voice-controlled computer system
US20150261968A1 (en) * 2014-03-12 2015-09-17 Ebay Inc. Visualizing random characters for keyboard-less devices
US10162811B2 (en) 2014-10-17 2018-12-25 Mz Ip Holdings, Llc Systems and methods for language detection
US10765956B2 (en) 2016-01-07 2020-09-08 Machine Zone Inc. Named entity recognition on chat data
CN107122041A (zh) * 2017-03-22 2017-09-01 广州阿里巴巴文学信息技术有限公司 密码输入方法、设备、客户端设备和虚拟现实设备
US10769387B2 (en) 2017-09-21 2020-09-08 Mz Ip Holdings, Llc System and method for translating chat messages
CN112309403A (zh) * 2020-03-05 2021-02-02 北京字节跳动网络技术有限公司 用于生成信息的方法和装置
CN112669846A (zh) * 2021-03-16 2021-04-16 深圳追一科技有限公司 交互系统、方法、装置、电子设备及存储介质
CN113050791A (zh) * 2021-03-16 2021-06-29 深圳追一科技有限公司 交互方法、装置、电子设备及存储介质
US11929063B2 (en) 2021-11-23 2024-03-12 International Business Machines Corporation Obfuscating audio samples for health privacy contexts

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001282287A (ja) * 2000-03-30 2001-10-12 Denso Corp 音声認識装置
JP2006053827A (ja) * 2004-08-13 2006-02-23 Canon Inc データ管理方法および装置
JP2008136646A (ja) * 2006-12-01 2008-06-19 Toshiba Corp 医用支援装置
JP2011170637A (ja) * 2010-02-18 2011-09-01 Nikon Corp 情報処理装置

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5765129A (en) * 1995-09-14 1998-06-09 Hyman; Gregory E. Voice recording and playback module
IL121642A0 (en) * 1997-08-27 1998-02-08 Creator Ltd Interactive talking toy
US7212969B1 (en) * 2000-09-29 2007-05-01 Intel Corporation Dynamic generation of voice interface structure and voice content based upon either or both user-specific contextual information and environmental information
US7143028B2 (en) * 2002-07-24 2006-11-28 Applied Minds, Inc. Method and system for masking speech
JP2009514005A (ja) * 2005-10-27 2009-04-02 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 口述筆記された情報を処理する方法及びシステム
US7870142B2 (en) * 2006-04-04 2011-01-11 Johnson Controls Technology Company Text to grammar enhancements for media files
JP4481972B2 (ja) * 2006-09-28 2010-06-16 株式会社東芝 音声翻訳装置、音声翻訳方法及び音声翻訳プログラム
US8347396B2 (en) * 2007-11-30 2013-01-01 International Business Machines Corporation Protect sensitive content for human-only consumption
US20100169182A1 (en) * 2008-12-30 2010-07-01 Masih Madani Mobile payment method and system using the same
US8543406B2 (en) * 2009-01-22 2013-09-24 Yahoo! Inc. Method and system for communicating with an interactive voice response (IVR) system
US8681780B2 (en) 2009-02-12 2014-03-25 International Business Machines Corporation Establishing electronically authenticated internet voice connections
US20130060561A1 (en) * 2009-11-07 2013-03-07 Robert B. O'Dell Encoding and Decoding of Small Amounts of Text
WO2011066844A1 (en) * 2009-12-02 2011-06-09 Agnitio, S.L. Obfuscated speech synthesis
US8386239B2 (en) * 2010-01-25 2013-02-26 Holovisions LLC Multi-stage text morphing
US20110218798A1 (en) * 2010-03-05 2011-09-08 Nexdia Inc. Obfuscating sensitive content in audio sources
IL205394A (en) * 2010-04-28 2016-09-29 Verint Systems Ltd A system and method for automatically identifying a speech encoding scheme
WO2011162972A1 (en) * 2010-06-23 2011-12-29 Nvoq Incorporated Apparatuses and methods to obtain information without disclosing the information to an agent and without recording the information
US20120079282A1 (en) * 2010-06-28 2012-03-29 Lionstone Capital Corporation Seamless end-to-end data obfuscation and encryption
US8560321B1 (en) * 2011-01-05 2013-10-15 Interactions Corportion Automated speech recognition system for natural language understanding
US8571873B2 (en) * 2011-04-18 2013-10-29 Nuance Communications, Inc. Systems and methods for reconstruction of a smooth speech signal from a stuttered speech signal

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001282287A (ja) * 2000-03-30 2001-10-12 Denso Corp 音声認識装置
JP2006053827A (ja) * 2004-08-13 2006-02-23 Canon Inc データ管理方法および装置
JP2008136646A (ja) * 2006-12-01 2008-06-19 Toshiba Corp 医用支援装置
JP2011170637A (ja) * 2010-02-18 2011-09-01 Nikon Corp 情報処理装置

Also Published As

Publication number Publication date
CN103383638B (zh) 2016-08-24
US20130297316A1 (en) 2013-11-07
JP6202858B2 (ja) 2017-09-27
CN103383638A (zh) 2013-11-06
DE102013206979A1 (de) 2013-11-07
US8903726B2 (en) 2014-12-02

Similar Documents

Publication Publication Date Title
JP6202858B2 (ja) 機密情報の音声入力のための方法、コンピュータ・プログラム、およびシステム
US11196540B2 (en) End-to-end secure operations from a natural language expression
JP6077689B2 (ja) ネットワークベースのカスタム辞書、自動修正およびテキスト入力嗜好
US11113419B2 (en) Selective enforcement of privacy and confidentiality for optimization of voice applications
US10360412B2 (en) Contextual contemporaneous gesture and keyboard entry authentication
US20180285595A1 (en) Virtual agent for the retrieval and analysis of information
WO2018055983A1 (ja) 翻訳装置、翻訳システム、および評価サーバ
US9565301B2 (en) Apparatus and method for providing call log
KR102360925B1 (ko) 개인 데이터 보호를 위해 자동 어시스턴트와 인간 대 컴퓨터 대화에 대해 분산 상태 머신을 사용
US8640252B2 (en) Obfuscating entry of sensitive information
JP7230145B2 (ja) 自動音声認識のためのコンテキスト非正規化
EP4143696A1 (en) System and method for query authorization and response generation using machine learning
US20230269291A1 (en) Routing of sensitive-information utterances through secure channels in interactive voice sessions
JP2018055022A (ja) 音声認識システム、情報処理装置、プログラム
Badigar et al. Voice Based Email Application For Visually Impaired
Yadav et al. Analysis of Personalized AI Assistant with Facial Recognition and Voice Representation
Bispham et al. Black-box attacks via the speech interface using linguistically crafted input
WO2023013062A1 (ja) 情報処理システム、情報処理装置、情報処理方法、及び記録媒体
WO2023013060A1 (ja) 情報処理システム、情報処理装置、情報処理方法、及び記録媒体
US20240029712A1 (en) Speech recognition using cadence patterns
KR102219728B1 (ko) 키패드를 이용한 키워드 검색 방법 및 장치
Ali Voice Recognition Anatomy, Processing, Uses and Application in C
KR20210020980A (ko) 키패드를 이용한 키워드 검색 방법 및 장치
Bharti et al. SIVAS: smart interactive virtual assistance system—a voice user interface
JP2020126186A (ja) 相槌判定によって応答発話生成を制御する対話実施プログラム、装置及び方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160315

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20161130

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20161206

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170302

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20170314

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170713

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20170720

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170808

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170829

R150 Certificate of patent or registration of utility model

Ref document number: 6202858

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees