JP4036528B2 - 意味認識システム - Google Patents

意味認識システム Download PDF

Info

Publication number
JP4036528B2
JP4036528B2 JP11752498A JP11752498A JP4036528B2 JP 4036528 B2 JP4036528 B2 JP 4036528B2 JP 11752498 A JP11752498 A JP 11752498A JP 11752498 A JP11752498 A JP 11752498A JP 4036528 B2 JP4036528 B2 JP 4036528B2
Authority
JP
Japan
Prior art keywords
semantic
word
meaning
application
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP11752498A
Other languages
English (en)
Other versions
JPH11312073A (ja
Inventor
昌朋 矢崎
俊明 五味
健司 山本
政秀 野田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP11752498A priority Critical patent/JP4036528B2/ja
Priority to US09/151,291 priority patent/US5991719A/en
Priority to EP98307561A priority patent/EP0953896B1/en
Publication of JPH11312073A publication Critical patent/JPH11312073A/ja
Application granted granted Critical
Publication of JP4036528B2 publication Critical patent/JP4036528B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、音声入力が可能なアプリケーションに対するインタフェースを提供するシステムであって、利用者による音声によるアプリケーションに対する入力指示を、その意味を認識してアプリケーションに通知するシステムに関する。
【0002】
【従来の技術】
近年のコンピュータシステムの高性能化、マルチメディア処理技術の発達により高度なヒューマンマシンインタフェースの提供が可能となり、人間と直接対話できるようなアプリケーションの開発環境が整いつつある。
【0003】
従来技術における音声認識技術を使用したアプリケーションは、大別して音声入力部と音声認識部と応用プログラム部分を備えている。音声入力部は、マイクロフォン等の音声入力装置を介して肉声を音声信号に変換する。その他には音声信号を記録したファイルなどからデータを読み込む場合もある。音声認識部は、入力された音声信号が表わす単語を、登録された音声信号パターンとのテンプレートマッチングなどにより認識し、応用プログラムに対して認識単語を通知する。応用プログラムは、音声認識部により通知された認識単語を利用してその後の処理を実行する。
【0004】
上記従来の音声認識アプリケーションの特徴として、以下の点が挙げられる。第一番目の特徴として、応用プログラムが、音声認識対象単語ごとに1対1に対応した処理プログラムとして記述されている点が挙げられる。つまり、音声認識部は、登録された認識対象単語からマッチングした結果を応用プログラムに通知するため、アプリケーション内部では、その後の処理を認識対象単語ごとにあらかじめ必要な処理に分類して個別に記述しておく必要がある。
【0005】
第二番目の特徴として、アプリケーションが、登録認識対象単語の言語に依存している点が挙げられる。つまり、音声認識部で登録されている認識対象単語以外は認識できないため、応用プログラムは登録された言語を前提として記述されており、言語依存のものとなっている。
【0006】
【発明が解決しようとする課題】
現在、各種アプリケーションの開発は、開発対象であるアプリケーションの高度化および複雑化、市場ニーズの変化の多様化、商品の国際化などに伴い、開発工数の低減、開発期間の短縮、多言語への対応が求められている。しかし、上記紹介した従来の音声認識アプリケーションは以下のような問題があった。
【0007】
従来の音声認識アプリケーションの第一番目の特徴として挙げた、音声認識対象単語ごとに応用アプリケーションが記述されている点に関し、開発工数の増加、認識対象単語の変更・追加などのチューニングの困難性の問題があった。つまり、処理内容を認識対象単語ごとにあらかじめ必要な処理に分類して個別に記述しておく必要があるため、認識対象単語の変更・追加は、応用プログラムの関連する箇所すべてにその影響が及ぶこととなり、記述内容を変更する必要があった。
【0008】
従来の音声認識アプリケーションの第二番目の特徴として挙げた、アプリケーションが、登録認識対象単語の言語に依存している点に関し、開発工数の増加、多言語への対応の困難性という問題があった。つまり、アプリケーション内部に言語依存部分があるので、システム利用者の使用言語、使用方言などに合わせて単語の表現方法を変えることは、言語依存部分すべてにその影響が及ぶこととなり、記述内容を変更するローカライズ作業の必要があった。
【0009】
従来の音声認識アプリケーションにおいても認識対象単語テーブルの更新、追加により認識対象単語の更新、追加登録が可能であるが、認識対象単語テーブルの更新、追加登録は、応用プログラムの関連する箇所すべてにその影響が及ぶこととなり、また、他の言語への対応のため認識対象単語テーブルごと入れ替える方法によると、結局、言語依存性から、応用プログラム自体も、入れ替えた認識対象単語テーブルの言語に対応するようにローカライズしたものを別途開発して入れ替える必要があった。
【0010】
本発明は、上記従来の音声認識システムの問題点に鑑み、言語依存の音声認識部とアプリケーションの関係を相互に独立とし、利用者のユーザインタフェースとして利用者のもっとも使用に適した言語、方言での使用環境を提供し、かつ、アプリケーション側では言語非依存の意味認識を中心とするシステムとすることにより、音声認識関連アプリケーションの多言語への容易な対応を可能とすることを目的とする。また、認識対象単語テーブルの更新・変更が、容易かつアプリケーションの応用プログラム記述部分への影響を最小限である意味認識システムを提供することを目的とする。
【0011】
【課題を解決するための手段】
上記課題を解決するために本発明にかかる意味認識システムは、入力となる音声信号を受け付ける音声信号入力部と、入力された音声信号を基に対応する単語を認識する音声認識部と、単語の意味を表わす意味番号とその意味番号に属する登録単語のリストである意味番号・登録単語リストを備えた認識単語・意味番号変換部と、アプリケーション用インタフェースと、意味番号をデータとして扱うアプリケーションを備え、前記音声信号入力部に入力された音声信号を基に前記音声認識部により対応する単語を認識し、前記認識した単語を前記認識単語・意味番号変換部により対応する意味番号に変換し、前記アプリケーション用インタフェースを介して前記変換した意味番号をアプリケーションに通知することを特徴とする。
【0012】
かかる構成により、ユーザインタフェースとして利用者にとりもっとも便利な言語、方言のものを提供することができ、かつ、言語依存の音声認識部の登録単語を言語非依存の意味番号に変換してアプリケーションに通知することができ、アプリケーションを言語非依存のものとして記述ができる。
【0013】
次に、前記意味認識システムは、前記認識単語・意味番号変換部の意味番号・登録単語リストの内容を更新する意味番号・登録単語リスト更新部を備えることが好ましい。
【0014】
かかる構成により、意味番号・登録単語リストを追加・変更することにより、意味認識システムをチューンナップすることができる。
次に、前記意味認識システムは、意味を体系的に分類して各々の意味単位をコード化した意味番号と各々の意味番号に属する登録単語とを体系的に記述した単語・意味体系テーブルを記録した外部記述ファイルを備えることが好ましい。
【0015】
かかる構成により、単語とその単語に対応する意味単位との関係を体系的に表わした単語・意味体系テーブルを、アプリケーション本体から分離可能な構成とすることができ、利用者の使用環境に応じて外部記述ファイルを交換することでアプリケーションをローカライズするための基本となるデータを用意することができる。
【0016】
次に、前記アプリケーションは、処理データの少なくとも一部に意味番号を含んだアプリケーションであって、前記認識単語・意味番号変換部が、前記アプリケーション用インタフェースを介して前記アプリケーションに含まれた意味番号を取得する意味番号取得部と、前記外部記述ファイルの単語・意味体系テーブル中から前記取得した意味番号に対応する登録単語を抽出して前記意味番号・登録単語リストを生成する意味番号・登録単語リスト生成部とを備えることが好ましい。
【0017】
かかる構成により、アプリケーションを言語非依存の意味番号に基づいて記述し、意味認識システムのローカライズにあたっては、アプリケーションで使用されている意味番号に対応するローカル言語の単語を自動的に抽出することができ、ローカライズ作業工数の大幅な低減が可能となる。
【0018】
次に、前記アプリケーションは、処理データの少なくとも一部に意味番号を含んだアプリケーションであって、前記アプリケーション自身に含まれた意味番号に基づいて前記外部記述ファイルの単語・意味体系テーブル中から対応する登録単語を抽出する処理ステップと、前記意味番号と登録単語を前記認識単語・意味番号変換部に通知する処理ステップとを備え、前記認識単語・意味番号変換部が、前記アプリケーションから取得した意味番号と登録単語に基づいて前記意味番号・登録単語リストを生成する意味番号・登録単語リスト生成部を備えることが好ましい。
【0019】
かかる構成により、アプリケーションを言語非依存の意味番号で記述し、意味認識システムのローカライズにあたっては、アプリケーション側から使用されている意味番号に対応するローカル言語の単語を通知させることができ、ローカライズ作業工数の大幅な低減が可能となる。
【0020】
次に、前記認識単語・意味番号変換部が、前記生成した前記意味番号・登録単語リストに挙げられた登録単語を前記音声認識部に通知する登録単語通知部を備え、前記音声認識部が、前記通知された登録単語に基づいて音声認識エンジンの内容を更新する音声認識単語更新部を備えることが好ましい。
【0021】
かかる構成により、アプリケーションで利用するために音声認識部で認識が必要な単語の特定とその単語認識に必要な音声認識エンジンの内容を自動生成することができ、ローカライズ作業工数の大幅な低減が可能となる。
【0022】
次に、前記意味認識システムは、利用者が使用する言語を指定する使用言語指定部と、前記外部記述ファイルとして複数の言語ごとの外部記述ファイルと、前記音声認識部の音声認識エンジンとして複数の言語ごとの音声認識エンジンとを備え、前記意味番号・登録単語リスト生成部は、前記使用言語指定部により指定された言語の外部記述ファイルを基に意味番号・登録単語リストを生成し、前記音声認識部は、前記使用言語指定部により指定された言語の音声認識エンジンを使用し、利用者に対して前記アプリケーションを複数の言語による入力指示ができるマルチリンガル対応のユーザインタフェースを提供することが好ましい。
【0023】
かかる構成により、利用者の使用言語、使用表現に合わせたカスタマイズ作業が容易に実行できる。また複数言語の外部記述ファイルと音声認識エンジンを指定することにより複数言語の意味番号・登録単語リストの自動生成、音声認識エンジン内容の更新をすることができ、アプリケーションを、同時に複数の言語による音声入力指示ができるマルチリンガル対応とすることができる。ここで言語には方言も含むことができ、日本語、英語などの言語に加え、関西弁、東北弁など各国語の各方言も含むことができる。
【0024】
次に、前記意味認識システムは、前記外部記述ファイルを提供する外部記述ファイルサーバと、前記アプリケーションを提供するアプリケーションサーバと、前記音声信号入力部と前記音声認識部と前記認識単語・意味番号変換部と前記アプリケーション用インタフェースとを備えた意味認識システムクライアントを備え、前記外部記述ファイルサーバと前記アプリケーションサーバと前記意味認識システムクライアントがコンピュータネットワークを介して接続されることが好ましい。
【0025】
かかる構成により、外部記述ファイルをネットワーク上に配置された外部記述ファイルサーバとしたクライアントサーバ構成で構築することができ、各言語ごとの外部記述ファイルを意味認識システム個別に用意する必要がなくなる。
【0026】
次に、本発明にかかる意味認識処理プログラムを記録したコンピュータ読み取り可能な記録媒体は、入力となる音声信号を受け付ける音声信号入力処理ステップと、前記入力処理された音声信号を基に対応する単語を認識する音声認識処理ステップと、意味を表わす意味番号とその意味番号に属する登録単語のリストである意味番号・登録単語リスト生成する意味番号・登録単語リスト生成処理ステップと、前記音声認識処理ステップにより認識した単語を前記生成した意味番号・登録単語リストにより対応する意味番号に変換する認識単語・意味番号変換処理ステップと、前記変換された意味番号を前記アプリケーションに通知する意味番号通知処理ステップとを備えた意味認識処理プログラムを記録したことを特徴とする。
【0027】
かかる構成により、コンピュータシステムを利用して、ユーザインタフェースとして利用者にとりもっとも便利な言語、方言が使用できる意味認識システムを提供することができ、かつ、言語依存の音声認識部の登録単語を言語非依存の意味番号に変換してアプリケーションに通知することができ、アプリケーションを言語非依存のものとして記述ができる。
【0028】
次に、前記意味認識処理プログラムは、前記意味番号・登録単語リストの内容を更新する意味番号・登録単語リスト更新処理ステップを備えることが好ましい。
【0029】
かかる構成により、意味番号・登録単語リストを追加・変更する処理を行うことができ、意味認識システムによる処理をチューンナップすることができる。
次に、前記意味認識処理プログラムは、意味を体系的に分類して各々の意味単位をコード化した意味番号と各々の意味番号に属する登録単語とを体系的に記述した単語・意味体系テーブルを記録した外部記述ファイルを備えたものであることが好ましい。
【0030】
かかる構成により、前記意味認識処理において、単語とその単語に対応する意味単位との関係を体系的に表わした単語・意味体系テーブルを、アプリケーション本体から分離可能な構成とすることができ、利用者の使用環境に応じて外部記述ファイルを交換することでアプリケーションをローカライズするための基本となるデータを用意することができる。
【0031】
次に、前記意味認識処理プログラムは、前記アプリケーションが処理データの少なくとも一部に意味番号を含んだアプリケーションであって、前記アプリケーションに含まれた意味番号を取得する意味番号取得処理ステップとを備え、前記意味番号・登録単語リスト生成処理ステップが、前記外部記述ファイルの単語・意味体系テーブル中から前記取得した意味番号に対応する登録単語を抽出して前記意味番号・登録単語リストを生成する処理ステップと、前記生成した意味番号・登録単語リストに挙げられた登録単語を前記音声認識処理ステップに通知する登録単語通知処理ステップを備え、前記音声認識処理ステップが、前記通知された登録単語に基づいて音声認識エンジンの内容を更新する音声認識単語更新処理ステップを備えることが好ましい。
【0032】
かかる構成により、アプリケーションを言語非依存の意味番号で記述し、意味認識処理ステップのローカライズにあたっては、アプリケーションで使用されている意味番号に対応するローカル言語の単語を自動的に抽出することができ、ローカライズ作業工数の大幅な低減が可能となる。
【0033】
次に、前記意味認識処理プログラムは、利用者が使用する言語を指定する利用言語指定処理ステップと、前記外部記述ファイルとして複数の言語ごとの外部記述ファイルと、前記音声認識処理ステップで利用する音声認識エンジンとして複数の言語ごとの音声認識エンジンとを備え、前記意味番号・登録単語リスト生成処理ステップにおいて、前記利用言語指定処理ステップにより指定された言語の外部記述ファイルを基に意味番号・登録単語リストを生成し、前記音声認識処理ステップにおいて、前記利用言語指定処理ステップにより指定された言語の音声認識エンジンを使用し、利用者に対して前記アプリケーションを複数の言語による入力指示ができるマルチリンガル対応のユーザインタフェースを提供するものであることが好ましい。
【0034】
かかる構成により、意味認識システム利用者の使用言語、使用表現に合わせたカスタマイズ作業が容易に実行できる。また、複数の外部記述ファイルを指定することにより複数言語の意味番号・登録単語リストの自動生成、音声認識エンジンの内容の更新をすることができ、アプリケーションを、複数の言語による音声入力指示ができるマルチリンガル対応とすることができる。
【0035】
次に、前記意味認識処理プログラムが、前記外部記述ファイルを提供する外部記述ファイル提供処理ステップを備えたネットワーク上に配された外部記述ファイルサーバ用の処理プログラムと、前記アプリケーションを提供するアプリケーション提供処理ステップを備えたネットワーク上に配されたアプリケーションサーバ用の処理プログラムと、前記外部記述ファイルサーバ用の処理プログラムと前記アプリケーションサーバ用の処理プログラムに対してネットワーク上で通信する意味認識システムクライアント用処理プログラムを備えたものであることが好ましい。
【0036】
かかる構成により、外部記述ファイルとアプリケーションをネットワーク上に配置されたサーバから提供するクライアントサーバ構成とした意味認識システムを構築することができる。
【0037】
【発明の実施の形態】
以下、本発明の実施形態にかかる意味認識システムについて、図面を参照しながら説明する。
【0038】
(実施形態1)
実施形態1にかかる意味認識システムは、利用者に対して音声入力が可能なユーザインタフェースを提供し、アプリケーションに対して利用者の入力内容を個々の単語が持つ本来の意味に着目して意味認識を行うことにより言語非依存として伝えるアプリケーション用インタフェースを提供するシステムである。本実施形態1では、アプリケーションは画面上に現われるオブジェクトを音声指示により移動制御する処理を含んだゲームとし、利用者は日本語を利用する者とし、ユーザーインタフェースとして日本語環境が構築される例を挙げる。
【0039】
本実施形態1にかかる意味認識システムの全体構成の概略と本システムによる処理流れの全体像を図面を参照しつつ説明する。図1は、本実施形態1にかかる意味認識システムの概略構成図を示している。図2は、本システムによる処理流れの全体像を処理ステップとして表わしたものである。
【0040】
図1に示すように、本実施形態1にかかる意味認識システムは、大別して、音声入力デバイス10、音声信号ファイル20、音声認識部30、認識単語・意味番号変換部40、アプリケーション50を備えている。なお、図示していないがシステム全体の制御処理に必要なコントローラ、メモリなどは装備している。
【0041】
音声入力デバイス10は、マイクロフォン、電話など入力音声を電気信号に変換するデバイスであればよい。音声信号ファイル20は、あらかじめ入力音声が編集・記録されたファイルである。音声認識部30は、音声認識エンジン31を含み、利用者の使用する言語に応じて音声認識エンジン31は入れ替え可能である。
認識単語・意味番号変換部40は、音声認識で認識された単語とその単語の意味を表わす意味番号との対応を表わす意味番号・登録単語リスト41と、意味番号・登録単語リスト41の内容を追加・変更などを行う意味番号・登録単語リスト変更部42とを備えている。ここで、意味番号とは、言葉の意味を体系的に分類した同じ意味を持つ言葉の集合体である意味単位をコード化したものである。意味番号は、言語に依存しない個々の単語が持つ本来の意味内容に対して与えられた中間コードであり、言語が異なってもその言語が意図する意味内容は変わらないことに着目して導入するものである。この意味番号は、当該言語体系に属する単語を網羅するものとしても良いが、システムリソースと実効性を考慮して、ゲームなどアプリケーションとして使用が予定されている分野において使用があり得る言葉を網羅するものであっても良い。
【0042】
認識単語・意味番号変換部40とアプリケーション50の間には、利用者の音声入力内容などを伝えるアプリケーション用インタフェースが提供される。アプリケーション50は、処理内容の一部に意味番号を含んだものである。
【0043】
意味認識システムの処理の流れの全体像は以下の通りである。まず、利用者にはユーザーインタフェースとして提供されているマイクロフォンなどの音声入力デバイス10を介して、アプリケーション50に入力したい指示内容を自らの言葉で入力する。ここでは例として日本語で「止まれ」と入力する。次に、入力された「止まれ」という音声は電気信号に変換され、音声認識部30に入力される。また、音声入力デバイス10による音声入力に代え、あらかじめ入力する言葉を編集・記録した音声信号ファイル20から対応する音声信号を音声認識部30に入力しても良い(図2ステップS101)。
【0044】
次に、音声認識部30は与えられた音声信号を認識する。音声認識部30には音声認識エンジン31があり、ここでは例として日本語の音声認識エンジンが搭載されているものとする。音声認識部30は、通常の音声認識処理である形態素処理、テンプレートマッチング処理などの処理を実行し、入力された単語を認識する。ここでは「止まれ」という音声が「トマレ」という単語データとして認識される。(図2ステップS102)。
【0045】
次に、ステップS102で認識された認識単語データを認識単語・意味番号変換部40において対応する意味番号に変換する。認識単語・意味番号変換部40は、意味番号・登録単語リスト41を参照して、認識単語データに対応する意味番号をサーチする。ここでは認識単語データ「トマレ」を意味番号“1”に変換する(図2ステップS103)。
【0046】
ここで、意味番号・登録単語リストの例を図3と図4に示す。図3に挙げたリストは、要素メンバとして、“シンボル番号”、“意味番号”、“登録単語”に加え、単語の付属情報として“カテゴリ”、“単語の説明”を要素メンバに持つ構造体を配列として構成したものである。シンボル番号は、各エントリごとにユニークに割り当てる番号であり、登録単語とは、認識対象となる文字列であり、カテゴリとは、登録単語の分類をコード化したものであり、単語に対する説明とは、登録単語に対する説明である。カテゴリと単語に対する説明は特に付与されないときは、例えば“NULL”が割り当てられている。
【0047】
図4に挙げたリストは、要素メンバとして、図3に示した要素メンバに加え、リンクリストを管理する要素メンバ“次のテーブルのアドレス”を加え、個々のエントリの挿入削除を容易に行えるような構造のものである。
【0048】
次に、ステップS103で得られた意味番号を、アプリケーション用インタフェースを介してアプリケーション50に与える(図2ステップS104)。
アプリケーション50は、その処理内容の一部に意味番号を含んでおり、入力された意味番号に応じた処理が実行される。アプリケーション50は画面上に現われるオブジェクトを音声指示により移動制御する処理を含んだゲームであり、ここでは例として、意味番号“1”に対してオブジェクトの移動を停止する処理が行われる(図2ステップS105)。つまり、ここで挙げた例では、利用者の「止まれ」というマイクロフォンからの音声指示により、画面上に現われるオブジェクトが移動を停止する処理が行われる。
【0049】
この意味認識処理(図2ステップS101〜ステップS105)は、利用者のゲーム進行に合わせて適宜繰り返されて進められる。
以上が、本実施形態1にかかる意味認識システム構成の概略と本システムによる処理流れの全体像である。
【0050】
以上のように、入力デバイス10からの音声入力により、アプリケーション50に対してその指示内容を伝えることができる。本実施形態1にかかる意味認識システムは、利用者に対して音声入力のユーザインタフェースを提供し、アプリケーションに対して言語に依存しない意味内容を伝えるアプリケーション用インタフェースを提供することができる。
【0051】
なお、本実施形態1では、一例として、日本語による処理を挙げたが、他の言語への対応もシステムのチューンナップにより可能なことは言うまでもない。つまり、音声認識部30の音声認識エンジン31を使用したい言語の音声認識エンジンに入れ替え、認識単語・意味番号変換部40の意味番号・登録単語リスト41を使用したい言語の意味番号・登録単語リストに入れ替えることで対応できる。ここで、意味番号・登録単語リストの意味番号は、使用言語が異なっている場合でも、同じ意味内容に対して同じ意味番号が付されているので言語非依存であり、アプリケーション50には、同じ意味内容の音声入力指示に対して同じ意味番号が伝えられることとなり、アプリケーション50は同じ意味番号に対して同じ処理を実行する。このように、アプリケーションに対して利用者の音声入力内容を個々の単語が持つ本来の意味に着目して意味認識を行うことにより言語非依存として伝えるアプリケーション用インタフェースを提供することができる。
【0052】
また、認識単語・意味番号変換部40の意味番号・登録単語リスト変更部42により、意味番号・登録単語リスト41の内容を追加・変更することができる。例えば、図4に示したリストの説明で述べたように、“次のテーブルのアドレス”の要素メンバを利用することにより、図5に示すようにエントリの挿入、削除などが容易にできる。図5は、意味番号・登録単語リスト41中に、認識単語「ウエヘトベ」と意味番号“15”からなる認識単語・意味番号のセットを101番目のエントリとして追加した例を示している。この意味番号・登録単語リスト変更部42により、意味認識システムを利用環境に合わせてチューンナップすることが可能である。
【0053】
(実施形態2)
実施形態2にかかる意味認識システムについて図面を参照しながら説明する。本実施形態2は、実施形態1と同様、利用者に対する音声入力によるユーザーインタフェースと、アプリケーションに対する利用者の音声入力内容を言語非依存として伝えるアプリケーション用インタフェースとを提供するシステムであるが、本実施形態2にかかる意味認識システムの特徴は、アプリケーションをロードするとともにアプリケーション側から情報を得て、当該アプリケーションを操作するためのユーザーインタフェースをカスタマイズして構築する点である。
【0054】
本実施形態2は、実施形態1と同様、アプリケーションは画面上に現われるオブジェクトを音声指示により移動制御する処理を含んだゲームとするが、利用者は英語を使用する者とし、ユーザーインタフェースとして英語環境が構築される例を挙げる。
【0055】
本実施形態2にかかる意味認識システムの全体構成の概略と本システムによる処理流れの全体像を図面を参照しつつ説明する。図6は、本実施形態2にかかる意味認識システムの概略構成図を示している。図7は、本システムによる処理流れの全体像を処理ステップとして表わしたものである。
【0056】
図6に示すように、本実施形態2にかかる意味認識システムは、大別して、音声入力デバイス10、音声信号ファイル20(図示せず)、音声認識部30、認識単語・意味番号変換部40、アプリケーション50に加え、外部記述ファイル60を備えている。なお、図示していないが、システム全体の制御処理に必要なコントローラ、メモリなどは装備している。また、実施形態1で説明したものと同様の要素には同じ番号を割り当てている。
【0057】
アプリケーション50は、処理データの少なくとも一部に意味番号を含んだアプリケーションである。
外部記述ファイル60は、アプリケーション本体からは分離された外部ファイルであって、ハードディスクやCD−ROMなどアクセス可能な二次記憶媒体に格納されておれば良く、プログラムと一体化している必要はない。外部記述ファイル60に記録されているファイルの内容は、意味を体系的に分類して各々の意味単位をコード化した意味番号と各々の意味番号に属する登録単語とを体系的に記述したテーブルである。この単語・意味体系テーブルは、当該言語体系に属する単語を網羅する登録単語群と対応する意味番号群を備えているものとしても良いが、システムリソースと実効性を考慮して、ゲームなどアプリケーションとして使用が予定されている分野において使用があり得る単語を網羅するものであっても良い。
【0058】
図8に外部記述ファイルの一例を示す。“State-name”とは、単語を登録する際のカテゴリを記述するための名前を指定する属性であり、“Language-ID”とは、単語の言語を表わす属性であり、基本言語ID、サブ言語IDなどを備えている。“Dialect”とは、言語の方言に関する属性であり、デフォルトは標準語(Standard)とする。“VCMD”とは、音声命令(Voice command)を記述するキーワードであり、意味番号・登録単語リスト41の各エントリとなる意味番号・登録単語のセットである。“#”はその行がコメントであることを示している。
【0059】
認識単語・意味番号変換部40は、意味番号取得部43と意味番号・登録単語リスト生成部44と登録単語通知部45を備えている。意味番号取得部43は、アプリケーション用インタフェースを介してアプリケーション50に記述された意味番号を取得するものである。意味番号・登録単語リスト生成部44は、外部記述ファイル60から取得した意味番号に対応する全ての登録単語を抽出して意味番号・登録単語リスト41を生成するものである。登録単語通知部45は、認識単語・意味番号変換部40が生成した意味番号・登録単語リスト41に挙げられた登録単語を音声認識部30に通知するものである。
【0060】
音声認識部30は、利用者の使用言語に対応した音声認識エンジン31と音声認識単語更新部32とを備えている。音声認識単語更新部32は、登録単語通知部45から通知された登録単語に基づいて音声認識エンジン31の内容を更新するものである。
【0061】
本実施形態2にかかる意味認識システムの処理の流れの全体像は以下の通りである。まず、意味認識システムにアプリケーション50をロードする。ロードはCD−ROMドライブなどのIO装置、ネットワークからのダウンロード(図示せず)などにより行う(図7ステップS201)。ここでは一例として、ロードされたアプリケーション50は、画面上に現われたオブジェクトの移動制御を伴うゲームであるとし、処理プログラムの一部にオブジェクトの移動命令を意味番号に基づいた記述が含まれているものとする。
【0062】
次に、認識単語・意味番号変換部40の意味番号取得部43は、アプリケーション用インタフェースを介してアプリケーション50に記述された意味番号を取得する(図7ステップS202)。ここでは、例えば意味番号“1”が取得されたとする。
【0063】
ステップS202で取得された意味番号は意味番号・登録単語リスト生成部44に渡される。意味番号・登録単語リスト生成部44は、例えば、図9に示すように、取得された意味番号を意味番号・登録単語リスト41に展開して保持する(図7ステップS203)。
【0064】
次に、意味番号・登録単語リスト生成部44は、外部記述ファイル60の単語・意味体系テーブルを参照して、意味番号・登録単語リスト41中の意味番号に対応する登録単語を抽出して意味番号・登録単語リスト41を生成する(図7ステップS204)。生成された意味番号・登録単語リスト41の一例を図10に示す。このように、アプリケーションで使用する命令群が意味番号である中間コードから利用者の使用する言語による命令群として生成される。ここでは英語による命令群が生成される。図10からも分かるように、個々の意味番号から、その意味番号に対応する外部記述ファイル60にある登録単語はすべて抽出されてリストに展開される。例えば「止まれ」の意味を表わす意味番号“1”に対して、“STOP”,“HALT”など「止まれ」という直接の意を持つ英語単語に加え、“STAY”,“DON´T MOVE”などオブジェクトに対して同様の動作をもたらす類義語も対応させても良い。
【0065】
次に、認識単語・意味番号変換部40の登録単語通知部45は、ステップS204で生成した意味番号・登録単語リスト41に挙げられた登録単語を音声認識部30に通知する(図7ステップS205)。ここでは図10に示された“STOP”,“HALT”などの登録単語が通知される。
【0066】
次に、音声認識部30は、ステップS205で通知された登録単語に基づき、音声認識単語更新部32により音声認識エンジン31の内容を更新する。つまり、音声認識エンジンの利用する音声信号の認識パターンの内容を更新し、ステップS205で通知された登録単語を利用者の使用する言語により音声認識できるユーザーインタフェースを構築する(図7ステップS206)。
【0067】
以上のステップS201〜ステップS206の処理を実行することにより、ロードしたアプリケーションで使用する利用者入力命令群を、言語非依存の中間コードである意味番号から利用者の使用する言語による命令群に自動的に変換して音声入力によるユーザーインタフェースを構築することができる。
【0068】
以上のステップS201〜ステップS206によるユーザーインタフェースのカスタマイズ処理の後、実施形態1で示した図2の処理ステップを実行することにより、利用者は自らの言語を音声で入力してゲームなどのアプリケーションを楽しむことができる。また、アプリケーションに応じてそのアプリケーションで使用する意味番号・登録単語リスト41を生成するので、主メモリの使用量を最適化して小さく抑えることができる。また、アプリケーションは利用者入力命令を意味番号を中心とした言語非依存の中間コードで記述できるため、アプリケーション開発者の他言語へのローカライズ作業工数を不要とすることができる。
【0069】
なお、上記説明では、例として英語による音声入力ユーザーインタフェース構築例を挙げたが、他の言語であっても、意味認識システムが使用予定されている環境に応じて、その基本構成として各言語ごとの基本となる外部記述ファイルと音声認識エンジンを備えることにより、同様にユーザーインタフェースを構築できることは言うまでもない。
また、上記説明において、認識単語・意味番号変換部が、アプリケーションに記述された意味番号を取得する意味番号取得部と、意味番号・登録単語リスト生成部とを備えた構成としたが、意味番号取得部と意味番号・登録単語リスト生成部に代え、アプリケーションが、アプリケーション自身に記述された意味番号に基づいて前記外部記述ファイルの単語・意味体系テーブル中から対応する登録単語を抽出する処理ステップと、前記意味番号と登録単語を前記認識単語・意味番号変換部に通知する処理ステップとを備え、認識単語・意味番号変換部が通知された意味番号と登録単語に基づいて意味番号・登録単語リストを生成する意味番号・登録単語リスト生成部を備える構成であっても良い。
【0070】
(実施形態3)
実施形態3にかかる意味認識システムについて図面を参照しながら説明する。本実施形態3は、実施形態1および実施形態2と同様、利用者に対する音声入力によるユーザーインタフェースと、アプリケーションに対する利用者の音声入力内容を言語非依存として伝えるアプリケーション用インタフェースとを提供するシステムであるが、本実施形態3にかかる意味認識システムの特徴は、ユーザーインタフェースの対象言語を利用者の指定により自由に選択、更新ができ、さらに、複数の言語を同時に扱うこともできる点である。意味認識システムの想定される使用環境として、利用者が複数の言語を使用する場合や異なる言語を話す複数人が同時に使用する可能性がある場合に適している。本実施形態3では特に、複数の言語を同時に扱うことのできるユーザーインタフェースの構築について述べる。
【0071】
本実施形態3は、実施形態1と同様、アプリケーションは画面上に現われるオブジェクトを音声指示により移動制御する処理を含んだゲームとするが、利用者は日本語を使用する者と英語を使用する者を想定し、ユーザーインタフェースとして日本語入力環境と英語入力環境が構築される例を挙げる。
【0072】
本実施形態3にかかる意味認識システムの全体構成の概略と本システムによる処理流れの全体像を図面を参照しつつ説明する。図11は、本実施形態3にかかる意味認識システムの概略構成図を示している。図12は、本システムによる処理流れの全体像を処理ステップとして表わしたものである。
【0073】
図11は図6とほぼ同様の構成であるが、本実施形態3にかかる意味認識システムは、使用言語指定部70を備えており、利用者は使用したい言語を指定する。外部記述ファイル60は言語ごとにファイルが用意されており、日本語外部記述ファイル60a、英語外部記述ファイル60b、ドイツ語外部記述ファイル60cなどが備えられている。また、音声認識部30の音声認識エンジン31も言語ごとに用意されており、日本語音声認識エンジン31a、英語音声認識エンジン31b、ドイツ語音声認識エンジン31cなどが備えられている。なお、図1、図6と同様の要素に対しては同じ番号を割り当てており、ここではその説明は省略する。また、図11中の各要素間の矢印は、便宜上、後述する処理ステップS301における言語指定のデータのなどのやり取りを中心に記し、その他は省略した。
【0074】
本実施形態3にかかる意味認識システムの処理の流れの全体像は以下の通りである。実施形態2で図7などをもって説明した部分と重複する説明は簡単に記す。まず、利用者は使用したい言語を使用言語指定部70により指定する(図12ステップS301)。ここでは、日本語と英語の2つの言語を指定する。この使用言語指定部70により指定入力された言語情報は、言語ID情報として登録単語・意味番号変換部40、音声認識部30に通知される。ここでは、日本語外部記述ファイル60aと英語外部記述ファイル60bが用意され、日本語音声認識エンジン31aと英語音声認識エンジン31bが用意される。
【0075】
次に、意味認識システムにアプリケーション50をロードする(図12ステップS302)。
次に、認識単語・意味番号変換部40の意味番号取得部43は、アプリケーション用インタフェースを介してアプリケーション50に記述された意味番号を取得する(図12ステップS303)。ここでは例えば、意味番号“1”などが取得される。
【0076】
ステップS303で取得された意味番号は意味番号・登録単語リスト生成部44に渡される。意味番号・登録単語リスト生成部44は、実施形態2と同様、図9に示すように、取得された意味番号を意味番号・登録単語リスト41に展開して保持する(図12ステップS304)。
【0077】
次に、意味番号・登録単語リスト生成部44は、ステップS301において通知された言語IDに基づいて指定された外部記述ファイルを参照する。ここでは、日本語外部記述ファイル60a、英語外部記述ファイル60bが参照される。各外部記述ファイル60の単語・意味体系テーブルを参照して、意味番号・登録単語リスト41中の意味番号に対応する登録単語を抽出して意味番号・登録単語リスト41を生成する(図12ステップS305)。生成された意味番号・登録単語リスト41の一例を図13に示す。このように、アプリケーションで使用する命令群が意味番号である中間コードから利用者が指定した複数の言語による命令群として生成される。ここでは日本語による命令群と英語による命令群が生成される。
【0078】
次に、認識単語・意味番号変換部40の登録単語通知部45は、ステップS305で生成した意味番号・登録単語リスト41に挙げられた登録単語を言語IDとともに音声認識部30に通知する(図12ステップS306)。
【0079】
次に、音声認識部30は、ステップS306で通知された登録単語と言語IDに基づき、音声認識単語更新部32により音声認識エンジン31の内容を更新する。つまり、ここでは、日本語音声認識エンジン31aと、英語音声認識エンジン31bがチューンナップされる(図12ステップS307)。
【0080】
以上のステップS301〜ステップS307の処理を実行することにより、ロードしたアプリケーションで使用する利用者入力命令群を、利用者の使用する複数の言語による命令群に自動的に変換して複数言語の音声入力によるマルチリンガルなユーザーインタフェースを構築することができる。
【0081】
以上のステップによりユーザインタフェースをカスタマイズした後、アプリケーション50に対する音声入力による操作は、実施形態1で説明した処理と同様の処理を実行し、ゲームなどのアプリケーションをマルチリンガル環境で楽しむことができる。
【0082】
なお、上記説明では、例として日本語と英語による音声入力ユーザーインタフェース構築例を挙げたが、他の言語であっても、同様に適用できることは言うまでもない。また、言語には方言も含まれるものとし、日本語、英語などの言語に加え、関西弁、東北弁など各国語の各方言に対しても同様に適応可能である。
【0083】
(実施形態4)
実施形態3にかかる意味認識システムについて図面を参照しながら説明する。本実施形態3は、実施形態1〜3に示した意味認識システムをクライアントサーバ構成で構築した例である。
【0084】
図14は、システムの全体概略構成を示している。
図14に示すように、ネットワーク上にはアプリケーションサーバ80、外部記述ファイルサーバ90が配置されている。アプリケーションサーバ80にはアプリケーション50が各種登録されており、クライアント100の要求によりアプリケーション50を提供する。外部記述ファイルサーバ90は各国言語、各方言ごとの外部記述ファイル60が登録されており、図6、図11に示した意味認識システムの外部記述ファイル60がネットワーク上でリモートアクセスできる構成となっている。つまり、意味認識システムクライアント100からの意味番号による参照要求に対して、意味番号に対応する登録認識単語を通知する構成である。
【0085】
意味認識システムクライアント100には、図示していないが、構成に応じて、音声入力デバイス10、音声信号ファイル20、音声認識部30、音声認識エンジン31、音声認識単語更新部32、認識単語・意味番号変換部40、意味番号・登録単語リスト41、意味番号・登録単語リスト変更部42、意味番号取得部43、意味番号・登録単語リスト生成部44、登録単語通知部45、使用言語指定部70を備えている。
【0086】
また、図示していないが、サーバ、クライアントともに、ネットワーク接続のための通信インタフェースを備えている。ネットワーク110は、データを通信できるものであれば良く、ローカルエリアネットワーク、インターネットなどのネットワーク網であり、専用線、公衆回線、有線、無線を問わない。
【0087】
以上のように構成することにより、外部記述ファイルをネットワーク上に配置された外部記述ファイルサーバとしたクライアントサーバ構成で構築することができ、各言語ごとの外部記述ファイルを意味認識システム個別に用意する必要がなくなる。
【0088】
(実施形態5)
本発明にかかる意味認識システムは、意味認識システムを実現する処理ステップを備えたプログラムとして記述し、コンピュータ読み取り可能な記録媒体に記録して提供することにより、各種コンピュータを用いて構築することができる。本発明にかかる意味認識システムを実現する処理ステップを備えたプログラムを記録した記録媒体は、図15に図示した記録媒体の例に示すように、CD−ROM123やフレキシブルディスク124等の可搬型記録媒体122だけでなく、ネットワーク上にある記録装置内の記録媒体121や、コンピュータのハードディスクやRAM等の記録媒体126のいずれであっても良く、プログラム実行時には、プログラムはコンピュータ125上にローディングされ、主メモリ上で実行される。
【0089】
【発明の効果】
本発明にかかる意味認識システムによれば、利用者に対して利用者の使用する言語による音声入力のユーザインタフェースを提供し、利用者は自らの言語の音声入力によりゲームなどのアプリケーションを楽しむことができる。また、アプリケーションに対して言語に依存しない意味内容を伝えるアプリケーション用インタフェースを提供することができ、アプリケーションは利用者入力命令を意味番号を中心とした言語非依存の中間コードで記述できるため、アプリケーション開発者の他言語へのローカライズ作業工数を不要とすることができる。
【0090】
また、本発明にかかる意味認識システムによれば、アプリケーションに応じてその都度アプリケーションで使用する意味番号・登録単語リストのみを生成するので使用する主メモリの容量を小さく抑えることができ、音声認識の速度が速くなる。
【0091】
また、本発明にかかる意味認識システムによれば、ロードしたアプリケーションで使用する利用者入力命令群を、利用者の使用する複数の言語による命令群に自動的に変換して複数言語の音声入力によるマルチリンガルなユーザーインタフェースを構築することができる。
【0092】
さらに、本発明にかかる意味認識システムのうち、外部記述ファイルをネットワーク上に配置された外部記述ファイルサーバとしたクライアントサーバ構成で構築することにより、各言語ごとの外部記述ファイルを意味認識システム個別に用意する必要がなくなり、利用形態の多様化とシステムの低価格化が実現できる。
【図面の簡単な説明】
【図1】 本発明の実施形態1にかかる意味認識システムの概略構成図
【図2】 本発明の実施形態1にかかる意味認識システムの処理流れの全体像を示したフローチャート
【図3】 意味番号・登録単語リストの例
【図4】 意味番号・登録単語リストの例
【図5】 意味番号・登録単語リストへの登録単語・意味番号セット追加例
【図6】 本発明の実施形態2にかかる意味認識システムの概略構成図
【図7】 本発明の実施形態2にかかる意味認識システムの処理流れの全体像を示したフローチャート
【図8】 外部記述ファイル50の例
【図9】 意味番号・登録単語リスト41へ取得した意味番号を展開した例
【図10】 生成された意味番号・登録単語リスト41の例
【図11】 本発明の実施形態3にかかる意味認識システムの概略構成図
【図12】 本発明の実施形態3にかかる意味認識システムの処理流れの全体像を示したフローチャート
【図13】 生成された意味番号・登録単語リストの例
【図14】 本発明の実施形態4にかかる意味認識システムの概略構成図
【図15】 記録媒体の例を示す図
【符号の説明】
10 音声入力デバイス
20 音声信号ファイル
30 音声認識部
31 音声認識エンジン
32 音声認識単語更新部
40 認識単語・意味番号変換部
41 意味番号・登録単語リスト
42 意味番号・登録単語リスト変更部
43 意味番号取得部
44 意味番号・登録単語リスト生成部
45 登録単語通知部
50 アプリケーション
60 外部記述ファイル
70 使用言語指定部
80 アプリケーションサーバ
90 外部記述ファイルサーバ
100 クライアント
110 ネットワーク
121 回線先のハードディスク等の記録媒体
122 CD−ROMやフレキシブルディスク等の可搬型記録媒体
123 CD−ROM
124 フレキシブルディスク
125 コンピュータ
126 コンピュータ上のRAM/ハードディスク等の記録媒体

Claims (8)

  1. 利用者に対して音声入力が可能なユーザインタフェースと、
    入力となる音声信号を受け付ける音声信号入力部と、
    入力された音声信号を基に対応する単語を認識する音声認識部と、
    単語の意味を表わし、言語に依存しない意味番号とその意味番号に属する登録単語とのリストである意味番号・登録単語リストを含む認識単語・意味番号変換部と、
    意味を体系的に分類して各々の意味単位コード化された意味番号と各々の意味番号に属する登録単語とを体系的に記述した単語・意味体系テーブルを記録した外部記述ファイルと、
    入力された意味番号に応じた処理を実行するアプリケーションに対して利用者の入力内容を、前記意味番号を用いて伝えるアプリケーション用インタフェースとを備え、
    前記外部記述ファイルは、前記アプリケーションの本体から分離可能であって、
    前記認識単語・意味番号変換部は、更に、
    前記アプリケーション用インタフェースを介して前記アプリケーションに含まれた意味番号を取得する意味番号取得部と、
    前記外部記述ファイルの単語・意味体系テーブル中から前記取得した意味番号に対応する登録単語を全て抽出することにより、前記意味番号と抽出した登録単語とを対応付けた前記意味番号・登録単語リストを生成する意味番号・登録単語リスト生成部とを備え、
    前記音声信号入力部に入力された音声信号を基に前記音声認識部により対応する単語を認識し、前記認識した単語を前記認識単語・意味番号変換部により対応する意味番号に変換し、前記アプリケーション用インタフェースを介して前記変換した意味番号を前記アプリケーションに通知することを特徴とする意味認識システム。
  2. 利用者に対して音声入力が可能なユーザインタフェースと、
    入力となる音声信号を受け付ける音声信号入力部と、
    入力された音声信号を基に対応する単語を認識する音声認識部と、
    単語の意味を表わし、言語に依存しない意味番号とその意味番号に属する登録単語とのリストである意味番号・登録単語リストを含む認識単語・意味番号変換部と、
    意味を体系的に分類して各々の意味単位コード化された意味番号と各々の意味番号に属する登録単語とを体系的に記述した単語・意味体系テーブルを記録した外部記述ファイルと、
    入力された意味番号に応じた処理を実行するアプリケーションに対して利用者の入力内容を、前記意味番号を用いて伝えるアプリケーション用インタフェースとを備え、
    前記外部記述ファイルは、前記アプリケーションの本体から分離可能であって、
    前記認識単語・意味番号変換部は、更に、
    前記アプリケーションに含まれた意味番号に基づいて前記外部記述ファイルの単語・意味体系テーブル中から対応する登録単語を全て抽出する抽出手段と、前記意味番号と抽出した登録単語を前記認識単語・意味番号変換部に通知する通知手段とを備えた前記アプリケーションから取得した意味番号と登録単語とを対応付けた前記意味番号・登録単語リストを生成する意味番号・登録単語リスト生成部を備え、
    前記音声信号入力部に入力された音声信号を基に前記音声認識部により対応する単語を認識し、前記認識した単語を前記認識単語・意味番号変換部により対応する意味番号に変換し、前記アプリケーション用インタフェースを介して前記変換した意味番号を前記アプリケーションに通知することを特徴とする意味認識システム。
  3. 更に、前記認識単語・意味番号変換部の意味番号・登録単語リストの内容を更新する意味番号・登録単語リスト更新部を備えた請求項1または2に記載の意味認識システム。
  4. 前記認識単語・意味番号変換部は、前記生成した意味番号・登録単語リストに挙げられた登録単語を前記音声認識部に通知する登録単語通知部を備え、
    前記音声認識部は、前記通知された登録単語に基づいて、前記音声認識部に含まれている音声認識エンジンの内容を更新する音声認識単語更新部を備えた請求項1または2に記載の意味認識システム。
  5. 利用者が使用する言語を指定する使用言語指定部と、
    前記外部記述ファイルとして複数の言語ごとの外部記述ファイルと、
    前記音声認識部の音声認識エンジンとして複数の言語ごとの音声認識エンジンとを備え、
    前記意味番号・登録単語リスト生成部は、前記使用言語指定部により指定された言語の外部記述ファイルを基に意味番号・登録単語リストを生成し、
    前記音声認識部は、前記使用言語指定部により指定された言語の音声認識エンジンを使用し、利用者に対して前記アプリケーションを複数の言語による入力指示ができるマルチリンガル対応のユーザインタフェースを提供する請求項4に記載の意味認識システム。
  6. 前記外部記述ファイルを提供する外部記述ファイルサーバと、
    前記アプリケーションを提供するアプリケーションサーバと、
    前記音声信号入力部と前記音声認識部と前記認識単語・意味番号変換部と前記アプリケーション用インタフェースとを備えた意味認識システムクライアントとを備え、
    前記外部記述ファイルサーバと前記アプリケーションサーバと前記意味認識システムクライアントがコンピュータネットワークを介して接続された請求項4または5に記載の意味認識システム。
  7. 利用者に対して音声入力が可能なユーザインタフェースと、
    意味を体系的に分類して各々の意味単位コード化された意味番号と各々の意味番号に属する登録単語とを体系的に記述した単語・意味体系テーブルを記録した外部記述ファイルと、
    入力された意味番号に応じた処理を実行するアプリケーションに対して利用者の入力内容を、前記意味番号を用いて伝えるアプリケーション用インタフェースとを備えたコンピュータを意味認識システムとして動作させる意味認識プログラムが記録された記録媒体であって、
    前記外部記述ファイルは、前記アプリケーションの本体から分離可能であって、
    前記意味認識プログラムは、
    入力となる音声信号を受け付ける音声信号入力処理と、
    入力された音声信号を基に対応する単語を認識する音声認識処理と、
    単語の意味を表わし、言語に依存しない意味番号とその意味番号に属する登録単語とのリストである意味番号・登録単語リストを生成する認識単語・意味番号変換処理とを前記コンピュータに実行させ、
    前記認識単語・意味番号変換処理は、更に、
    前記アプリケーション用インタフェースを介して前記アプリケーションに含まれた意味番号を取得する意味番号取得処理と、
    前記外部記述ファイルの単語・意味体系テーブル中から前記取得した意味番号に対応する登録単語を全て抽出することにより、前記意味番号と抽出した登録単語とを対応付けた前記意味番号・登録単語リストを生成する意味番号・登録単語リスト生成処理とを含み、
    前記音声信号入力処理に入力された音声信号を基に前記音声認識処理により対応する単語を認識し、前記認識した単語を前記認識単語・意味番号変換処理により対応する意味番号に変換し、前記アプリケーション用インタフェースを介して前記変換した意味番号を前記アプリケーションに通知する処理をコンピュータに実行させることを特徴とする意味認識プログラムを記録した記録媒体。
  8. 利用者に対して音声入力が可能なユーザインタフェースと、
    意味を体系的に分類して各々の意味単位コード化された意味番号と各々の意味番号に属する登録単語とを体系的に記述した単語・意味体系テーブルを記録した外部記述ファイルと、
    入力された意味番号に応じた処理を実行するアプリケーションに対して利用者の入力内容を、前記意味番号を用いて伝えるアプリケーション用インタフェースとを備えたコンピュータを意味認識システムとして動作させる意味認識プログラムが記録された記録媒体であって、
    前記外部記述ファイルは、前記アプリケーションの本体から分離可能であって、
    前記意味認識プログラムは、
    入力となる音声信号を受け付ける音声信号入力処理と、
    入力された音声信号を基に対応する単語を認識する音声認識処理と、
    単語の意味を表わし、言語に依存しない意味番号とその意味番号に属する登録単語とのリストである意味番号・登録単語リストを生成する認識単語・意味番号変換処理とを前記コンピュータに実行させ、
    前記認識単語・意味番号変換処理は、更に、
    前記アプリケーションに含まれた意味番号に基づいて前記外部記述ファイルの単語・意味体系テーブル中から対応する登録単語を全て抽出する抽出処理と、前記意味番号と抽出した登録単語を前記認識単語・意味番号変換処理に通知する通知処理とを含む前記アプリケーションから取得した意味番号と登録単語とを対応付けた前記意味番号・登録単語リストを生成する意味番号・登録単語リスト生成処理を含み、
    前記音声信号入力処理に入力された音声信号を基に前記音声認識処理により対応する単語を認識し、前記認識した単語を前記認識単語・意味番号変換処理により対応する意味番号に変換し、前記アプリケーション用インタフェースを介して前記変換した意味番号を前記アプリケーションに通知する処理をコンピュータに実行させることを特徴とする意味認識プログラムを記録した記録媒体。
JP11752498A 1998-04-27 1998-04-27 意味認識システム Expired - Fee Related JP4036528B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP11752498A JP4036528B2 (ja) 1998-04-27 1998-04-27 意味認識システム
US09/151,291 US5991719A (en) 1998-04-27 1998-09-11 Semantic recognition system
EP98307561A EP0953896B1 (en) 1998-04-27 1998-09-17 Semantic recognition system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11752498A JP4036528B2 (ja) 1998-04-27 1998-04-27 意味認識システム

Publications (2)

Publication Number Publication Date
JPH11312073A JPH11312073A (ja) 1999-11-09
JP4036528B2 true JP4036528B2 (ja) 2008-01-23

Family

ID=14713922

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11752498A Expired - Fee Related JP4036528B2 (ja) 1998-04-27 1998-04-27 意味認識システム

Country Status (3)

Country Link
US (1) US5991719A (ja)
EP (1) EP0953896B1 (ja)
JP (1) JP4036528B2 (ja)

Families Citing this family (63)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11224179A (ja) * 1998-02-05 1999-08-17 Fujitsu Ltd 対話インタフェース・システム
JPH11311995A (ja) * 1998-04-30 1999-11-09 Toshiba Tec Corp 音声認識装置
JP2000187435A (ja) * 1998-12-24 2000-07-04 Sony Corp 情報処理装置、携帯機器、電子ペット装置、情報処理手順を記録した記録媒体及び情報処理方法
US20010037198A1 (en) * 2000-02-01 2001-11-01 Into Voice Corporation Method and system for providing texts for voice requests
GB0004097D0 (en) * 2000-02-22 2000-04-12 Ibm Management of speech technology modules in an interactive voice response system
US7788602B2 (en) 2000-06-06 2010-08-31 Microsoft Corporation Method and system for providing restricted actions for recognized semantic categories
US7770102B1 (en) 2000-06-06 2010-08-03 Microsoft Corporation Method and system for semantically labeling strings and providing actions based on semantically labeled strings
US7716163B2 (en) 2000-06-06 2010-05-11 Microsoft Corporation Method and system for defining semantic categories and actions
US7421645B2 (en) 2000-06-06 2008-09-02 Microsoft Corporation Method and system for providing electronic commerce actions based on semantically labeled strings
US7712024B2 (en) 2000-06-06 2010-05-04 Microsoft Corporation Application program interfaces for semantically labeling strings and providing actions based on semantically labeled strings
US7047196B2 (en) 2000-06-08 2006-05-16 Agiletv Corporation System and method of voice recognition near a wireline node of a network supporting cable television and/or video delivery
US7792676B2 (en) * 2000-10-25 2010-09-07 Robert Glenn Klinefelter System, method, and apparatus for providing interpretive communication on a network
US6665642B2 (en) 2000-11-29 2003-12-16 Ibm Corporation Transcoding system and method for improved access by users with special needs
US20020095473A1 (en) * 2001-01-12 2002-07-18 Stuart Berkowitz Home-based client-side media computer
US7383187B2 (en) * 2001-01-24 2008-06-03 Bevocal, Inc. System, method and computer program product for a distributed speech recognition tuning platform
US8095370B2 (en) 2001-02-16 2012-01-10 Agiletv Corporation Dual compression voice recordation non-repudiation system
US7778816B2 (en) 2001-04-24 2010-08-17 Microsoft Corporation Method and system for applying input mode bias
US6688652B2 (en) * 2001-12-12 2004-02-10 U.S. Pipe And Foundry Company Locking device and method for securing telescoped pipe
JP4017887B2 (ja) * 2002-02-28 2007-12-05 富士通株式会社 音声認識システムおよび音声ファイル記録システム
US7325194B2 (en) 2002-05-07 2008-01-29 Microsoft Corporation Method, system, and apparatus for converting numbers between measurement systems based upon semantically labeled strings
US7707496B1 (en) 2002-05-09 2010-04-27 Microsoft Corporation Method, system, and apparatus for converting dates between calendars and languages based upon semantically labeled strings
US7742048B1 (en) * 2002-05-23 2010-06-22 Microsoft Corporation Method, system, and apparatus for converting numbers based upon semantically labeled strings
US7707024B2 (en) 2002-05-23 2010-04-27 Microsoft Corporation Method, system, and apparatus for converting currency values based upon semantically labeled strings
US7281245B2 (en) 2002-06-05 2007-10-09 Microsoft Corporation Mechanism for downloading software components from a remote source for use by a local software application
US7827546B1 (en) 2002-06-05 2010-11-02 Microsoft Corporation Mechanism for downloading software components from a remote source for use by a local software application
US7356537B2 (en) 2002-06-06 2008-04-08 Microsoft Corporation Providing contextually sensitive tools and help content in computer-generated documents
US7716676B2 (en) 2002-06-25 2010-05-11 Microsoft Corporation System and method for issuing a message to a program
US7392479B2 (en) 2002-06-27 2008-06-24 Microsoft Corporation System and method for providing namespace related information
US7209915B1 (en) 2002-06-28 2007-04-24 Microsoft Corporation Method, system and apparatus for routing a query to one or more providers
US20040012643A1 (en) * 2002-07-18 2004-01-22 August Katherine G. Systems and methods for visually communicating the meaning of information to the hearing impaired
US7143041B2 (en) * 2002-12-23 2006-11-28 System Application Engineering, Inc. Method for object selection
US7783614B2 (en) 2003-02-13 2010-08-24 Microsoft Corporation Linking elements of a document to corresponding fields, queries and/or procedures in a database
US7711550B1 (en) 2003-04-29 2010-05-04 Microsoft Corporation Methods and system for recognizing names in a computer-generated document and for providing helpful actions associated with recognized names
US7558841B2 (en) 2003-05-14 2009-07-07 Microsoft Corporation Method, system, and computer-readable medium for communicating results to a data query in a computer network
GB2402507A (en) * 2003-06-03 2004-12-08 Canon Kk A user input interpreter and a method of interpreting user input
US7739588B2 (en) 2003-06-27 2010-06-15 Microsoft Corporation Leveraging markup language data for semantically labeling text strings and data and for providing actions based on semantically labeled text strings and data
KR100552693B1 (ko) * 2003-10-25 2006-02-20 삼성전자주식회사 피치검출방법 및 장치
US7689404B2 (en) * 2004-02-24 2010-03-30 Arkady Khasin Method of multilingual speech recognition by reduction to single-language recognizer engine components
US20060020444A1 (en) * 2004-07-26 2006-01-26 Cousineau Leo E Ontology based medical system for data capture and knowledge representation
US20060020465A1 (en) * 2004-07-26 2006-01-26 Cousineau Leo E Ontology based system for data capture and knowledge representation
US20060020447A1 (en) * 2004-07-26 2006-01-26 Cousineau Leo E Ontology based method for data capture and knowledge representation
US20060020466A1 (en) * 2004-07-26 2006-01-26 Cousineau Leo E Ontology based medical patient evaluation method for data capture and knowledge representation
US20060136220A1 (en) * 2004-12-22 2006-06-22 Rama Gurram Controlling user interfaces with voice commands from multiple languages
US8788271B2 (en) * 2004-12-22 2014-07-22 Sap Aktiengesellschaft Controlling user interfaces with contextual voice commands
US7409344B2 (en) * 2005-03-08 2008-08-05 Sap Aktiengesellschaft XML based architecture for controlling user interfaces with contextual voice commands
US7788590B2 (en) 2005-09-26 2010-08-31 Microsoft Corporation Lightweight reference user interface
US7992085B2 (en) 2005-09-26 2011-08-02 Microsoft Corporation Lightweight reference user interface
JP4846734B2 (ja) 2005-12-07 2011-12-28 三菱電機株式会社 音声認識装置
SG133419A1 (en) * 2005-12-12 2007-07-30 Creative Tech Ltd A method and apparatus for accessing a digital file from a collection of digital files
US7873517B2 (en) 2006-11-09 2011-01-18 Volkswagen Of America, Inc. Motor vehicle with a speech interface
US8472925B2 (en) * 2007-10-23 2013-06-25 Real Time Translation, Inc. On-demand, real-time interpretation system and method
JP5326549B2 (ja) * 2008-12-22 2013-10-30 日産自動車株式会社 音声認識装置及び方法
CN102918586B (zh) * 2010-06-02 2015-08-12 拿索斯财务有限公司 用于图像数据记录和再现的设备及其方法
US9077813B2 (en) 2012-02-29 2015-07-07 International Business Machines Corporation Masking mobile message content
US20140045463A1 (en) * 2012-08-10 2014-02-13 Silverplus, Inc. Wearable Communication Device
CN103051781A (zh) * 2012-12-07 2013-04-17 百度在线网络技术(北京)有限公司 语音后台控制方法及移动终端
JP2016166923A (ja) * 2015-03-09 2016-09-15 Ntn株式会社 測定データ記録・管理装置
US9928235B2 (en) * 2016-07-07 2018-03-27 International Business Machines Corporation Type-specific rule-based generation of semantic variants of natural language expression
US9767094B1 (en) 2016-07-07 2017-09-19 International Business Machines Corporation User interface for supplementing an answer key of a question answering system using semantically equivalent variants of natural language expressions
US9910848B2 (en) * 2016-07-07 2018-03-06 International Business Machines Corporation Generating semantic variants of natural language expressions using type-specific templates
US10490188B2 (en) 2017-09-12 2019-11-26 Toyota Motor Engineering & Manufacturing North America, Inc. System and method for language selection
CN110491383B (zh) * 2019-09-25 2022-02-18 北京声智科技有限公司 一种语音交互方法、装置、系统、存储介质及处理器
CN114464179B (zh) * 2022-01-28 2024-03-19 达闼机器人股份有限公司 语音交互方法、系统、装置、设备及存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4706212A (en) * 1971-08-31 1987-11-10 Toma Peter P Method using a programmed digital computer system for translation between natural languages
US5551049A (en) * 1987-05-26 1996-08-27 Xerox Corporation Thesaurus with compactly stored word groups
US4870686A (en) * 1987-10-19 1989-09-26 Motorola, Inc. Method for entering digit sequences by voice command
US5386494A (en) * 1991-12-06 1995-01-31 Apple Computer, Inc. Method and apparatus for controlling a speech recognition function using a cursor control device
JPH08274858A (ja) * 1995-03-30 1996-10-18 Kokusai Denshin Denwa Co Ltd <Kdd> ダイヤレス発信装置
JPH09330316A (ja) * 1996-06-10 1997-12-22 Meidensha Corp 電子メールの翻訳方法

Also Published As

Publication number Publication date
JPH11312073A (ja) 1999-11-09
EP0953896A1 (en) 1999-11-03
EP0953896B1 (en) 2006-09-13
US5991719A (en) 1999-11-23

Similar Documents

Publication Publication Date Title
JP4036528B2 (ja) 意味認識システム
US7369998B2 (en) Context based language translation devices and methods
US8521677B2 (en) Artificial intelligence system
JP6767046B2 (ja) 音声対話システム、音声対話装置、ユーザー端末、および音声対話方法
AU2014331209B2 (en) Method for dialogue between a machine, such as a humanoid robot, and a human interlocutor; computer program product; and humanoid robot for implementing such a method
EP0692765A2 (en) Text preparing system using knowledge base and method therefor
CN102298928A (zh) 用于认知超负荷的设备用户的交互式对话
JP2021022928A (ja) 人工知能基盤の自動応答方法およびシステム
US20070073768A1 (en) Interactive system for building and sharing one&#39;s own databank of wisdom bytes, such as words of wisdom, basic truths and/or facts and and feats, in one or more languages
JP2005031758A (ja) 音声処理装置及び方法
JP2002236681A (ja) 日常言語コンピューティングシステムおよびその方法
JP5327737B2 (ja) 対話装置、重み情報学習装置、対話方法、重み情報学習方法、およびプログラム
Cristea et al. CoBiLiRo: A research platform for bimodal corpora
US20210149900A1 (en) Method, system and computer program for semantic triple-based knowledge extension
CN109891410B (zh) 用于新的会话对话系统的数据收集
EP3822817A1 (en) Method, system and computer program for semantic triple-based knowledge extension
KR102446300B1 (ko) 음성 기록을 위한 음성 인식률을 향상시키는 방법, 시스템, 및 컴퓨터 판독가능한 기록 매체
CN109377988A (zh) 用于智能音箱的交互方法、介质、装置和计算设备
JP2004072274A (ja) 音声処理システム及びその制御方法
JP2006185342A (ja) 情報処理装置および文字列分類方法およびプログラムおよび記録媒体
Bigi SPPAS-the automatic annotation and analysis of speech (version 4.7)
JP4043176B2 (ja) 自然言語処理装置
JP2007004636A (ja) 言語入力システム、その処理方法、記録媒体及びプログラム
Beech Modularity of computer languages
Chen Enhanced Correction and Multi Language Support of Transcription on the" Tell your story" Digital Platform

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040825

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20060608

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060615

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060807

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070424

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070625

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20070628

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20071025

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20071030

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101109

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101109

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111109

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111109

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121109

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121109

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131109

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees