JP2003316387A - 学習装置、移動通信端末、情報認識システム、及び、学習方法 - Google Patents

学習装置、移動通信端末、情報認識システム、及び、学習方法

Info

Publication number
JP2003316387A
JP2003316387A JP2003037064A JP2003037064A JP2003316387A JP 2003316387 A JP2003316387 A JP 2003316387A JP 2003037064 A JP2003037064 A JP 2003037064A JP 2003037064 A JP2003037064 A JP 2003037064A JP 2003316387 A JP2003316387 A JP 2003316387A
Authority
JP
Japan
Prior art keywords
information
utterance
learning
mobile communication
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003037064A
Other languages
English (en)
Inventor
Hiroyuki Manabe
宏幸 真鍋
Akira Hiraiwa
明 平岩
Toshiaki Sugimura
利明 杉村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Original Assignee
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc filed Critical NTT Docomo Inc
Priority to JP2003037064A priority Critical patent/JP2003316387A/ja
Priority to US10/367,886 priority patent/US7216078B2/en
Priority to DE60315907T priority patent/DE60315907T2/de
Priority to EP03003781A priority patent/EP1336947B1/en
Priority to CNB031037941A priority patent/CN100426818C/zh
Publication of JP2003316387A publication Critical patent/JP2003316387A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications

Abstract

(57)【要約】 【課題】 移動通信端末において調音器官情報に基づく
発話内容認識をすることを可能とする、学習装置、移動
通信端末、情報認識システム及び学習方法を提供する。 【解決手段】 ユーザの筋電情報をデータセンタ28に
送信し、筋電情報に基づく発話内容認識を行うのに必要
な認識パラメータを生成するための計算負荷の高い学習
を、移動通信端末27でなくデータセンタ28において
行う。これにより、固定型のコンピュータ等に比べて処
理速度やメモリ等の制限の大きい移動通信端末27にお
いて学習を行う場合に比して、短時間で効率のよい学習
が可能とされる。また、データセンタ28で取得された
認識パラメータを移動通信端末27に送信するので、こ
れ以降、移動通信端末27において、学習装置等との情
報の送受信をすることなく移動通信端末のみで、ユーザ
に適合された認識パラメータにより発話内容認識が好適
に実施できる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、ユーザが発話動作
する際の調音器官の動きに関する情報に基づいて発話の
内容の認識をする移動通信端末、発話の内容の認識に係
る認識パラメータを生成する学習装置、これらを含む情
報認識システム、この情報認識システムで行われる学習
方法、に関する。
【0002】
【従来の技術】従来より、音響情報によらず、発話動作
を行う者の口周辺の筋電情報や口唇の映像等、調音器官
の動きに関する情報に基づいて発話の内容の認識をする
情報認識方法が知られている。これによれば、発話者が
音響を発することなく口や舌等の動きから発話の内容の
認識が可能であり、例えば、特開平7−181888号
公報に開示されているように、病気や事故等により発声
ができない無咽頭者の口等の動きから発話の内容を認識
して発声を代行する装置等に応用されている。
【0003】そして、このような調音器官の動きに関す
る情報に基づく発話の内容の認識を行う場合には、話者
毎の様々な発話の特徴に対応すべく、当該調音器官の動
きに関する情報等を話者毎に適応的に学習し、話者毎に
固有の認識パラメータを生成し、この話者毎の認識パラ
メータに基づいて発話の内容を認識をすることが重要と
され、これにより発話の内容の認識精度が向上される。
【0004】
【発明が解決しようとする課題】このような情報認識方
法は、音響情報を必要としないので、周囲の雑音等に影
響されず、また、口や舌等を動かす無声の発話動作をす
るだけでよいので、屋外等の周囲の雑音の大きい場所
や、オフィスや図書館等の静けさの要求される場所にお
ける発話の内容の認識手段としても利用でき、例えば携
帯電話に代表される移動通信端末への適用が考えられ
る。
【0005】しかし、調音器官の動きに関する情報に基
づく発話の内容の認識に関する学習には多くのメモリや
計算能力を必要とし、処理能力やメモリ等に制限がある
携帯電話等の移動通信端末でこのような学習等を実行さ
せることは難しく、移動通信端末において調音器官の動
きに関する情報に基づく発話の内容の認識を行うことは
困難であった。
【0006】本発明は、上記課題に鑑みてなされたもの
であり、移動通信端末において調音器官の動きに関する
情報に基づく発話の内容の認識をすることを可能とす
る、学習装置、移動通信端末、情報認識システム及び学
習方法を提供することを目的とする。
【0007】
【課題を解決するための手段】本発明に係る学習装置
は、ネットワークを介して互いに通信可能な移動通信端
末と共に、当該移動通信端末のユーザが発話動作する際
の調音器官の動きに関する情報に基づいて発話の内容を
認識する情報認識システムを構成する学習装置であっ
て、上記移動通信端末から送信される上記調音器官の動
きに関する情報を受信する調音器官情報受信手段と、上
記ユーザの発話動作に対応する教師データを取得する教
師データ取得手段と、上記調音器官の動きに関する情報
と、上記教師データと、に基づいて、上記発話動作につ
いての発話の内容の認識に関する学習を行って認識パラ
メータを生成する学習手段と、上記認識パラメータを上
記移動通信端末に送信する認識パラメータ送信手段と、
を備えることを特徴とする。
【0008】本発明に係る移動通信端末は、ネットワー
クを介して互いに通信可能な学習装置と共に、ユーザが
発話動作をする際の上記ユーザの調音器官の動きに関す
る情報に基づいて発話の内容を認識する情報認識システ
ムを構成する移動通信端末であって、上記ユーザが発話
動作する際の上記ユーザの調音器官の動きに関する情報
を取得する調音器官情報取得手段と、上記調音器官の動
きに関する情報を上記学習装置に送信する調音器官情報
送信手段と、上記学習装置から送信される上記発話の内
容の認識に関する認識パラメータを受信する認識パラメ
ータ受信手段と、上記調音器官の動きに関する情報と、
上記認識パラメータと、に基づいて、上記発話動作につ
いての発話の内容の認識を行う情報認識手段と、を備え
ることを特徴とする。
【0009】本発明に係る情報認識システムは、移動通
信端末と、上記移動通信端末とネットワークを介して通
信可能な学習装置と、を含んで構成され、上記移動通信
端末のユーザが発話動作をする際の上記ユーザの調音器
官の動きに関する情報に基づいて発話の内容を認識する
情報認識システムであって、上記移動通信端末は、ユー
ザが発話動作する際の上記ユーザの調音器官の動きに関
する情報を取得する調音器官情報取得手段と、上記調音
器官の動きに関する情報を上記学習装置に送信する調音
器官情報送信手段と、上記学習装置から送信される、上
記発話の内容の認識に関する認識パラメータを受信する
認識パラメータ受信手段と、上記調音器官の動きに関す
る情報と、上記認識パラメータと、に基づいて、上記発
話動作についての発話の内容の認識を行う情報認識手段
と、を備え、上記学習装置は、上記移動通信端末から送
信される上記調音器官の動きに関する情報を受信する調
音器官情報受信手段と、上記ユーザの発話動作に対応す
る教師データを取得する教師データ取得手段と、上記調
音器官の動きに関する情報と、上記教師データと、に基
づいて上記発話動作についての発話の内容の認識に関す
る学習を行って認識パラメータを生成する学習手段と、
上記認識パラメータを上記移動通信端末に送信する認識
パラメータ送信手段と、を備えることを特徴とする。
【0010】本発明に係る一の学習方法は、移動通信端
末と、上記移動通信端末とネットワークを介して通信可
能な学習装置と、を含んで構成され、上記移動通信端末
のユーザが発話動作をする際の上記ユーザの調音器官の
動きに関する情報に基づいて発話の内容を認識する情報
認識システムにおける学習方法であって、上記移動通信
端末が、上記ユーザが発話動作する際の上記ユーザの調
音器官の動きに関する情報を取得する調音器官情報取得
工程と、上記移動通信端末が、上記調音器官の動きに関
する情報を上記学習装置に送信する調音器官情報送信工
程と、上記学習装置が、上記移動通信端末から送信され
る上記調音器官の動きに関する情報を受信する調音器官
情報受信工程と、上記学習装置が、上記ユーザの発話動
作に対応する教師データを取得する教師データ取得工程
と、上記学習装置が、上記調音器官の動きに関する情報
と、上記教師データと、に基づいて上記発話動作につい
ての発話の内容の認識に関する学習を行って認識パラメ
ータを生成する学習工程と、上記学習装置が、上記認識
パラメータを上記移動通信端末に送信する認識パラメー
タ送信工程と、上記移動通信端末が、上記学習装置から
送信される認識パラメータを受信する認識パラメータ受
信工程と、を含むことを特徴とする。
【0011】本発明に係る他の学習方法は、移動通信端
末のユーザが発話動作する際の調音器官の動きに関する
情報に基づいて発話の内容を認識する情報認識システム
を構成する学習装置における学習方法であって、移動通
信端末から送信される上記調音器官の動きに関する情報
を受信する調音器官情報受信工程と、上記ユーザの発話
動作に対応する教師データを取得する教師データ取得工
程と、上記調音器官の動きに関する情報と、上記教師デ
ータと、に基づいて、上記発話動作についての発話の内
容の認識に関する学習を行って認識パラメータを生成す
る学習工程と、上記認識パラメータを上記移動通信端末
に送信する認識パラメータ送信工程と、を含むことを特
徴とする。
【0012】本発明の学習装置、移動通信端末、情報認
識システム及び学習方法によれば、ユーザの調音器官の
動きに関する情報が学習装置に送信され、ユーザの調音
器官の動きに関する情報に基づいて発話の内容の認識を
行うのに必要な認識パラメータを生成するための計算負
荷の高い学習が、移動通信端末でなく学習装置によって
行われる。これによって、固定型のコンピュータ等に比
べて、処理速度やメモリ等の制限の大きい移動通信端末
において学習を行う場合に比して、短時間で効率のよい
学習が可能とされる。また、このような学習によりユー
ザに適合された認識パラメータは移動通信端末に送信さ
れ、これ以降、学習装置等との情報の送受信をすること
なく、移動通信端末のみで認識率の高い発話の内容の認
識が好適に実施できる。
【0013】ここで、上記学習装置において、上記学習
手段により生成された認識パラメータを上記ユーザ毎に
格納する認識パラメータデータベースを備え、上記学習
手段は、上記学習によって認識パラメータを生成する際
に、当該ユーザに対して過去に生成された認識パラメー
タを参照することが好ましい。
【0014】また、上記情報認識システムにおいて、上
記学習装置は、上記学習手段により生成された認識パラ
メータを上記ユーザ毎に格納する認識パラメータデータ
ベースを備え、上記学習手段は、上記学習によって認識
パラメータを生成する際に、当該ユーザに対して過去に
生成した認識パラメータを参照することが好ましい。
【0015】また、上記一の学習方法において、上記学
習装置が、上記学習工程により生成された認識パラメー
タを上記ユーザ毎に認識パラメータデータベースに格納
する認識パラメータ格納工程を含み、上記学習工程は、
上記学習によって認識パラメータを生成する際に、当該
ユーザに対して過去に生成した認識パラメータを参照す
ることが好ましい。
【0016】また、上記他の学習方法において、上記学
習工程により生成された認識パラメータを上記ユーザ毎
に格納する認識パラメータ格納工程をさらに含み、上記
学習工程において、上記学習によって認識パラメータを
生成する際に、当該ユーザに対して過去に生成した認識
パラメータを参照することが好ましい。
【0017】これらの学習装置、情報認識システム及び
学習方法によれば、学習装置における学習において、認
識率を高めるべく各ユーザ毎の過去の学習時に得られた
認識パラメータに改良を加える場合に、当該過去の認識
パラメータを各々の移動通信端末から学習装置に送信す
る必要がなくされ、認識パラメータの逐次的な改良が容
易に可能とされる。
【0018】また、上記学習装置において、上記教師デ
ータ取得手段は、上記ユーザが発話すべき発話パターン
を発生して教師データとする発話パターン生成手段を備
え、上記認識パラメータ送信手段は、さらに当該発話パ
ターンを上記移動通信端末に対して送信することが好ま
しい。
【0019】また、上記移動通信端末において、上記認
識パラメータ受信手段は、さらに上記学習装置から送信
される発話パターンを受信し、上記発話パターンを上記
ユーザに対して提示する発話パターン提示手段を備える
ことが好ましい。
【0020】また、上記情報認識システムにおいて、上
記教師データ取得手段は、上記ユーザが発話すべき発話
パターンを発生して教師データとする発話パターン生成
手段を備え、上記学習装置の認識パラメータ送信手段
は、さらに上記発話パターンを上記移動通信端末に送信
し、上記移動通信端末の認識パラメータ受信手段は、さ
らに上記学習装置から送信される発話パターンを受信
し、上記移動通信端末は、上記発話パターンを上記ユー
ザに対して提示する発話パターン提示手段を備えること
が好ましい。
【0021】また、上記一の学習方法において、上記教
師データ取得工程は、上記ユーザが発話すべき発話パタ
ーンを発生して教師データとする発話パターン生成工程
を含み、上記認識パラメータ送信工程は、さらに上記発
話パターンを上記移動通信端末に送信し、上記認識パラ
メータ受信工程は、さらに上記学習装置から送信される
発話パターンを受信し、上記移動通信端末が、上記発話
パターンを上記ユーザに対して提示する発話パターン提
示工程を含むことが好ましい。
【0022】また、上記他の学習方法において、上記教
師データ取得工程は、上記ユーザが発話すべき発話パタ
ーンを発生して教師データとする発話パターン生成工程
と、上記発話パターンを上記移動通信端末に対して送信
する発話パターン送信工程と、を含むことが好ましい。
【0023】これらの学習装置、移動通信端末、情報認
識システム及び学習方法によれば、学習に適した発話パ
ターンが学習装置側で生成され移動通信端末に送られ
て、移動通信端末においてユーザがこの発話パターンに
基づく発話をすることが可能とされると共に、学習装置
側において、生成された発話パターンを教師データとし
て学習が行われて、発話の内容の認識に関する学習が効
率的に行われる。また、学習に適した発話パターンの生
成を学習装置側で行うので、このような発話パターンの
生成をしても、移動通信端末の計算やメモリ等の負荷が
増加されない。
【0024】また、上記学習装置において、上記ユーザ
に関する個人情報が当該ユーザに対応づけて格納された
個人情報データベースを備え、上記発話パターン生成手
段は、上記ユーザに関する個人情報に基づいて上記発話
パターンを生成することが好ましい。
【0025】また、上記情報認識システムにおいて、上
記学習装置は、上記ユーザに関する個人情報が当該ユー
ザに対応づけて格納された個人情報データベースを備
え、上記発話パターン生成手段は、上記ユーザに関する
個人情報に基づいて上記発話パターンを生成することが
好ましい。
【0026】また、上記一の学習方法において、上記学
習装置が、上記ユーザに関する個人情報を当該ユーザに
対応づけて個人情報データベースに格納する個人情報格
納工程を含み、上記発話パターン生成工程は、上記ユー
ザに関する個人情報に基づいて上記発話パターンを生成
することが好ましい。
【0027】また、上記他の学習方法において、上記ユ
ーザに関する個人情報を当該ユーザに対応づけて格納す
る個人情報格納工程をさらに含み、上記発話パターン生
成工程は、上記ユーザに関する個人情報に基づいて上記
発話パターンを生成することが好ましい。
【0028】これらの学習装置、情報認識システム及び
学習方法によれば、各ユーザの個人情報、例えば、年
齢、性別、方言等に基づいて、各ユーザに適した発話パ
ターンを生成することが可能とされ、ユーザに適した認
識パラメータの生成がより効率よく行われ、移動通信端
末における認識率が容易に高くされる。
【0029】さらに上記学習装置において、上記調音器
官情報受信手段は、さらに上記移動通信端末から送信さ
れる上記発話動作の際の音響に関する情報を受信し、上
記教師データ取得手段は、上記音響に関する情報に基づ
く音声認識を行って上記発話動作に対応する教師データ
を得る音響情報認識手段を備えることが好ましい。
【0030】また、上記移動通信端末において、上記情
報認識システムは、上記発話動作がなされる際に発生す
る音響に関する情報を取得する音響取得手段を備え、上
記調音器官情報送信手段は、さらに上記音響に関する情
報を上記学習装置に送信することが好ましい。
【0031】また、上記情報認識システムにおいて、上
記移動通信端末は、上記発話動作がなされる際に発生す
る音響に関する情報を取得する音響取得手段を備え、上
記移動通信端末の調音器官情報送信手段は、さらに上記
音響に関する情報を学習装置に送信し、上記学習装置の
調音器官情報受信手段は、さらに上記移動通信端末から
送信される上記音響に関する情報を受信し、上記教師デ
ータ取得手段は、上記音響に関する情報に基づく音声認
識を行って上記発話動作に対応する教師データを得る音
響情報認識手段を備えることが好ましい。
【0032】また、上記一の学習方法において、上記移
動通信端末が、上記発話動作がなされる際に発生する音
響に関する情報を取得する音響取得工程を含み、上記調
音器官情報送信工程は、さらに上記音響に関する情報を
学習装置に送信し、上記調音器官情報受信工程は、さら
に上記移動通信端末から送信される上記音響に関する情
報を受信し、上記教師データ取得工程は、上記音響に関
する情報に基づく音声認識を行って上記発話動作に対応
する教師データを得る音響情報認識工程を含むことが好
ましい。
【0033】また、上記他の学習方法において、上記調
音器官情報受信工程では、さらに上記移動通信端末から
送信される上記発話動作の際の音響に関する情報を受信
し、上記教師データ取得工程において、上記音響に関す
る情報に基づく音声認識を行って上記発話動作に対応す
る教師データを得ることが好ましい。
【0034】これらの学習装置、移動通信端末、情報認
識システム及び学習方法によれば、ユーザが発話動作す
る際に発生する音響情報が学習装置に送信され、学習装
置においてこの音響情報に基づいて教師データが得られ
るので、ユーザに特定の発話パターンの発話をさせる等
の負担をかけることなく、通常の会話をさせながら発話
の内容の認識に関する認識パラメータを得ることができ
る。
【0035】
【発明の実施の形態】以下、添付図面を参照しながら、
本発明に係る情報認識システム(音声認識システム)の
好適な実施形態について詳細に説明する。
【0036】図1は、本実施形態に係る情報認識システ
ムの構成を示すブロック図である。本実施形態の情報認
識システム100は、所定の認識パラメータに基づいて
発話内容の認識を行う移動通信端末27と、移動通信端
末27を使用するユーザに適合する認識パラメータを学
習によって生成するサーバコンピュータとしてのデータ
センタ28と、備え、これらは有線又は無線のネットワ
ーク19を介して互いに接続されている。
【0037】移動通信端末27は、筋電信号検出手段1
1及び筋電信号処理手段12により構成される筋電情報
取得手段(調音器官情報取得手段)30と、音響信号検
出手段13及び音響信号処理手段14により構成される
音響情報取得手段31と、データセンタ28と情報の送
受信を行う音響・筋電情報送信手段(調音器官情報送信
手段)15及び発話パターン・認識パラメータ受信手段
(認識パラメータ受信手段)16と、発話内容の認識を
行う筋電情報認識手段(情報認識手段)17と、認識結
果を提示する認識結果提示手段18と、ユーザに発話パ
ターンを提示する発話パターン提示手段10と、を備え
て構成され、また、携帯電話として他の移動通信端末等
と通信する機能(図示しない)も有している。
【0038】音響信号検出手段13はユーザが発話動作
する際に発生する音響信号を検出し、音響信号処理手段
14は、音響信号検出手段13によって検出された音響
信号のスペクトル分析やケプストラム分析等を行って音
響情報を取得する。
【0039】筋電信号検出手段11はユーザが発話動作
する際の口周りの筋肉(調音器官)の筋電信号を検出
し、筋電信号処理手段12は取得された筋電信号を増幅
すると共に時間窓で切り出してパワーの計算やスペクト
ル分析等を行い、筋電情報を取得する。
【0040】ここで、ユーザは、唇、顎、歯、舌、鼻
腔、軟口蓋等の調音器官を動作させることによって発話
動作を行う。これらの調音器官においては、主として口
周りの筋肉が動くことよって調音動作がなされるので、
ユーザの口周りの筋肉の筋電信号を取得することにより
調音器官の動きに関する情報を好適に取得できる。
【0041】ここで、例えば、折り畳み式の移動通信端
末に適用する場合は、図2に示すように、筋電信号検出
手段11として、ユーザの顔の皮膚が接触する面に板状
の電極42,43,44を設置することができ、また、
図3に示すように、皮膚が接触する部位に針状の電極4
5,46,47,48,49,50を設置することがで
きる。なお、精度よく筋電情報から発話内容の認識をす
るためには、筋電を複数チャネル分検出することが好ま
しい。
【0042】音響・筋電情報送信手段15は、図1に示
すように、筋電信号処理手段12からの筋電情報及び音
響信号処理手段14からの音響情報を、ネットワーク1
9を介してデータセンタ28に送信する。
【0043】発話パターン・認識パラメータ受信手段1
6は、データセンタ28から送信される、筋電情報から
の発話内容の認識に必要な認識パラメータやユーザが発
話すべき発話パターンに関する情報を、ネットワーク1
9を介して受信し、発話パターン提示手段10は、受信
した発話パターンをディスプレイやスピーカ等によって
ユーザに提示する。
【0044】筋電情報認識手段17は、発話パターン・
認識パラメータ受信手段16が受信した認識パラメータ
と、筋電信号処理手段12からの筋電情報とに基づい
て、ユーザが発話動作した発話内容の認識(音声認識)
を行い、認識結果提示手段18は認識結果をユーザ等に
対してディスプレイやスピーカ等によってユーザに、あ
るいは、通信網を介して他の移動通信端末等に送信す
る。
【0045】ここで、筋電情報認識手段17の発話内容
認識アルゴリズムとしては、種々の方法が採用でき、例
えば、IEEE生体医用工学会誌(Noboru Sugie et a
l., Aspeech employing a speech synthesizer vowel d
iscrimination from perioral muscles activities and
vowel production, IEEE transactions on Biomedical
Engineering, Vol. 32, No. 7, 1985, pp485-490)に
記載されているように、筋電信号をバンドパスフィルタ
を通過させ、閾値の交差回数をカウントして5母音(a,
i, u, e, o)を弁別するアルゴリズムを採用してもよ
いし、特開平7−181888号公報に記載されている
ように、口の周囲の筋肉の筋電情報をニューラルネット
ワークで処理し、ユーザの母音だけでなく子音も含めて
検出するアルゴリズムでもよく、また、隠れマルコフモ
デル(Hidden Marcov model)等のアルゴリズムを用い
ても構わない。
【0046】一方、データセンタ28は、ネットワーク
19を介して移動通信端末27と情報の送受信を行う音
響・筋電情報受信手段(調音器官情報受信手段)24及
び発話パターン・認識パラメータ送信手段(認識パラメ
ータ送信手段)22と、教師データ取得手段33を構成
する音響情報認識手段25及び発話パターン発生手段2
0と、認識パラメータを生成する筋電情報学習手段(学
習手段)26と、種々の情報を格納する個人情報データ
ベース21及び認識パラメータデータベース23と、を
備えている。
【0047】音響・筋電情報受信手段24は、移動通信
端末27から送信される筋電情報及び音響情報をネット
ワーク19を介して受信する。
【0048】個人情報データベース21には、移動通信
端末27を使うユーザ毎に、性別、年齢、使用する方言
等の個人情報が各ユーザに対応づけて格納されている。
【0049】発話パターン発生手段20は、個人情報デ
ータベース21に格納された個人情報に基づき、各ユー
ザ毎の学習に適した発話パターンを発生し、教師データ
とすると共に、この発話パターンを発話パターン・認識
パラメータ送信手段22に送信する。具体的には、例え
ば、当該ユーザの性別や、年齢、方言等に基づいて、当
該ユーザが最も用いそうな単語、文等や、当該ユーザの
発話を特徴づける語尾等のパターン等を出力する。な
お、過去に当該ユーザに関して学習が行われている場合
には、さらに、認識パラメータデータベース23(詳細
は後述)に格納された当該ユーザの学習回数や、認識率
データ等に基づいて、当該ユーザのさらなる認識率の向
上に適した発話パターン、例えば、認識率の悪かった単
語等の発話パターン、を生成する。
【0050】音響情報認識手段25は、音響・筋電情報
受信手段24が受信した音響情報に基づいて音声認識を
行って音声情報を取得し、ユーザの発話動作に対応する
教師データを取得する。ここで、音響情報認識手段25
における、音声認識方法は特に限定されず、例えば、ス
ペクトル包絡等に基づく隠れマルコフモデルや、DPマ
ッチング法等が利用できる。
【0051】筋電情報学習手段26は、音響・筋電情報
受信手段24で受信された筋電情報を取得すると共に、
この筋電情報に対応する教師データとして、音響情報認
識手段25で取得された音声情報や発話パターン発生手
段20で発生した発話パターンを取得し、筋電情報によ
る発話内容の認識に関する学習を行い、発話内容の認識
のための認識パラメータを生成する。
【0052】ここで、具体的には、移動通信端末27の
筋電情報認識手段17で用いられる発話内容の認識アル
ゴリズムに対応する学習を行えばよく、例えば、筋電情
報認識手段17で、ニューラルネットワークを用いる場
合には、そのニューラルネットワークに対してバックプ
ロパゲーション法を適用すればよい。
【0053】認識パラメータデータベース23には、筋
電情報学習手段26における学習よって生成された認識
パラメータや、学習回数等の学習状況や、当該認識パラ
メータによる認識率等や、音響情報認識手段25によっ
て認識された音声情報等が各ユーザ毎に格納される。ま
た、認識パラメータデータベース23は、個人情報デー
タベース21と接続されていて、各ユーザ毎の学習回数
等のデータを互いに参照可能となっている。
【0054】発話パターン・認識パラメータ送信手段2
2は、認識パラメータデータベース23に格納されたユ
ーザ毎の認識パラメータ等と、発話パターン発生手段2
0によって生成された発話パターンとを、ユーザの移動
通信端末27に対してネットワーク19を介して送信す
る。また、必要に応じて、認識パラメータデータベース
23や個人情報データベース21の内容も移動通信端末
27に対して送信可能となっている。
【0055】次に、このような移動通信端末27及びデ
ータセンタ28を備える情報認識システム100の動作
について説明すると共に、併せて、本実施形態に係る情
報認識システム100における学習方法について説明す
る。
【0056】まず、図4及び図5を参照して、第一の手
順として、移動通信端末27を有するユーザが、無声又
は有声による発話動作を行って学習を行う場合の手順に
ついて説明する。なお、図5は、図4において、データ
センタ28が行う工程を抜きだしたものである。
【0057】ユーザが、移動通信端末27において、第
一の手順による認識パラメータの学習を始める所定のボ
タン操作等を行うと、移動通信端末27は、データセン
タ28に対して第一の手順による認識パラメータの学習
が開始されることを通告する(ステップ101)。
【0058】次に、学習開始の通告を受けたデータセン
タ28は、個人情報データベース21に格納されている
当該ユーザに関する情報等に基づいて、発話内容の認識
に適した発話パターンを発生し、この発話パターンを移
動通信端末27に送信する(ステップ102)。ここ
で、当該ユーザに関する情報が個人情報データベース2
1に登録されていない場合には、万人に適していると考
えられる発話パターンを生成する。また、過去に当該ユ
ーザに関して学習が行われている際には、さらに、認識
パラメータデータベース23に格納された当該ユーザの
学習回数や、認識率データ等に基づいて、当該ユーザの
さらなる認識率の向上に適した発話データを生成する。
【0059】移動通信端末27は、データセンタ28か
らの発話パターンを受信し、発話パターンをユーザに提
示する(S103)。そして、ユーザは、提示された発
話パターンに従って、有声又は無声により発話動作を行
う。
【0060】すると、移動通信端末27は、ユーザの発
話動作の際の筋電信号を検出し、この筋電信号に対して
所定の処理を行って筋電情報とし、筋電情報をデータセ
ンタ28に対して送信する(ステップ104)。
【0061】データセンタ28は、この筋電情報を受信
し、筋電情報学習手段26によって、この筋電情報と、
この筋電情報に対応する教師データとしての発話パター
ンとに基づいて発話内容の認識に関する学習を行い、認
識パラメータを生成する(ステップ105)。なお、当
該ユーザが過去に学習を行っている場合は、認識パラメ
ータデータベース23から当該ユーザの過去の認識パラ
メータを読み出し、この認識パラメータを改良する形
で、新たな認識パラメータの生成を行う。
【0062】そして、ステップ106において、学習が
収束等しなかったり発話内容の認識を行うのに十分な認
識パラメータが生成しなかった場合は、ステップ102
に戻って、新たな発話パターンの生成と、これに基づく
学習を行う。
【0063】一方、十分な認識パラメータが生成した場
合には、ステップ107に進み、取得された認識パラメ
ータを、当該ユーザの学習回数や当該認識パラメータの
認識率等のデータと共に認識パラメータデータベース2
3に格納すると共に、認識パラメータを移動通信端末2
7に送信する。
【0064】そして、移動通信端末27はこの認識パラ
メータを受信する(ステップ108)。そして、これ以
降、移動通信端末27は、このユーザに適合された認識
パラメータとユーザの筋電情報とに基づいて、筋電情報
認識手段17によって、ローカルに発話内容の認識を高
い認識率で行うことができ、認識された音声情報(言語
情報)は、画面や、スピーカ等によって出力され、ま
た、ネットワーク19を介して、他の移動通信端末等に
送信される。
【0065】このように、本実施形態によれば、ユーザ
の発話動作の際の筋電情報がデータセンタ28に送信さ
れ、筋電情報に基づく発話内容の認識を行うのに必要な
認識パラメータを生成するための計算負荷の高い学習
が、移動通信端末27でなくデータセンタ28によって
行われる。これによって、固定型のコンピュータ等に比
べて、処理速度やメモリ等の制限の大きい移動通信端末
27において発話内容の認識のための学習を行う場合に
比して、短時間で効率のよい学習が可能とされている。
また、このようにして取得されたユーザに適合する認識
パラメータは移動通信端末27に送信され、これ以降、
移動通信端末27において、データセンタ28等と情報
の送受信をすることなく、移動通信端末27のみで当該
認識パラメータを用いて高い認識率での発話内容の認識
が可能になっている。
【0066】また、データセンタ28には、ユーザ毎に
認識パラメータが格納され、データセンタ28における
学習において各ユーザ毎の過去の学習時に得られた認識
パラメータに改良を加える場合に、当該ユーザの過去の
認識パラメータを各々の移動通信端末27からデータセ
ンタ28に送信する必要がなく、認識パラメータの逐次
的な改良が容易とされ、移動通信端末27における認識
率を容易に高められる。
【0067】また、学習に適した発話パターンがデータ
センタ28側で生成され、移動通信端末27に送られて
ユーザに対して提示されるので、移動通信端末27にお
いてユーザがこの学習に適した発話パターンに基づく発
話をすることが可能とされると共に、データセンタ28
側において、当該発話に係る筋電情報と、教師データと
しての発話パターンとに基づいて学習が行われ、より効
率的な学習が可能とされて、移動通信端末27における
発話内容の認識の認識率をさらに容易に高めることがで
きる。また、各ユーザの学習に適した発話パターンの生
成がデータセンタ28側で行なわれるので、このような
発話パターンの発生を行っても、移動通信端末27の計
算やメモリ等の負荷が増加しない。
【0068】また、データセンタ28には、ユーザ毎の
個人情報が格納されており、発話パターンを発生する際
に各ユーザの個人情報、例えば、年齢、性別、方言等に
基づいて、各ユーザに適した発話パターンが生成され、
学習がより効率よく行われる。また、個人情報データが
データセンタ28に格納されているので、学習時に個人
情報を参照する際に移動通信端末27からデータセンタ
28に個人情報を送信する必要がない。
【0069】次に、第二の手順として、ユーザの有声の
任意の発話動作に基づいて学習を行う手順について図6
及び図7を参照して説明する。なお、図7は、図6にお
いて、データセンタ28が行う工程を抜きだしたもので
ある。
【0070】まず、ユーザが、移動通信端末27におい
て、第二の手順による認識パラメータの学習を始める所
定のボタン操作等を行うと、移動通信端末27は、デー
タセンタ28に対して第二の手順による認識パラメータ
の学習が開始されることを通告する(ステップ20
1)。そして、ユーザは、移動通信端末27を用いて、
他の移動通信端末等に対して通常の、すなわち、発話パ
ターンの制約を受けない自由な音声通話を行う。
【0071】この際、移動通信端末27は、第一の手順
と同様にユーザの音声通話の際の筋電信号を取得して筋
電情報としてデータセンタ28に対して送信すると共
に、ユーザの音声通話の際の音響信号を検出し、この音
響信号に所定の処理を施して音響情報とした後、この音
響情報をデータセンタ28に送信する(ステップ20
2)。
【0072】データセンタ28は、移動通信端末27か
らの筋電情報及び音響情報を受信し、音響情報に基づく
音声認識を行い、ユーザが音声通話した音声情報(言語
情報)を取得する(ステップ203)。
【0073】さらに、データセンタ28は、筋電情報
と、当該筋電情報に対応する教師データとしての音声情
報とに基づいて、筋電情報からの発話の内容の認識に関
する学習を行い、認識パラメータを生成する(ステップ
204)。なお、当該ユーザが過去に学習を行っている
場合は、第一の手順と同様に、認識パラメータデータベ
ース23から当該ユーザの過去の認識パラメータを読み
出し、この認識パラメータを改良する形で、新たな認識
パラメータの生成を行う。
【0074】移動通信端末27における音声通話が終了
すると、データセンタ28は、生成した認識パラメータ
や音声情報等を認識パラメータデータベース23に格納
すると共に認識パラメータを移動通信端末27に送信し
(ステップ107)、移動通信端末27は、認識パラメ
ータを受信する(ステップ108)。
【0075】そして、これ以降、移動通信端末27は、
ユーザに適合された認識パラメータとユーザの筋電情報
とに基づいて、上述と同様にローカルに発話内容の認識
を行うことができる。
【0076】本実施形態においては、ユーザの発話動作
に関する音響情報がデータセンタ28に送信され、デー
タセンタ28においてこの音響情報に基づいて教師デー
タを得るので、ユーザに特定の発話パターンの発話をさ
せる等の負担をかけることなく、通常の会話をさせなが
ら移動通信端末27側の発話内容の認識に関する認識パ
ラメータを得ることができる。
【0077】なお、移動通信端末27には、あらかじ
め、学習を行わなくても移動通信端末27において筋電
信号によるローカルな発話内容の認識を可能とすべく、
万人向けの一般的な認識パラメータが格納されている。
しかしながら、図8に示すように、上述の第一の手順に
よる学習や第二の手順による学習を任意の順序で繰り返
すことにより、移動通信端末27の認識パラメータは、
当該移動通信端末27を利用するユーザ毎に最適化さ
れ、各ユーザの移動通信端末27においては、この最適
化された認識パラメータを用いることにより、移動通信
端末27における発話内容の認識を高い認識率で行うこ
とができる。
【0078】なお、本発明は、上記実施形態に限定され
るものではなく、種々の変形態様をとることが可能であ
る。
【0079】例えば、上記第一の手順において、データ
センタ28の筋電情報学習手段26は、発話パターン発
生手段20によって発生される発話パターンを教師デー
タとして学習をしているが、ユーザが有声で発話パター
ンを発生する際は、音響情報認識手段25によって認識
される音声情報を教師データとしてもよく、また、発話
パターン及び音声情報の両方を教師データとしてもよ
い。
【0080】また、上記情報認識システム100は、移
動通信端末27においてユーザの筋電情報に基づく発話
内容の認識を行うものであるが、これに限られず、例え
ば、移動通信端末27においてユーザの口や舌の動きの
画像等を取得し画像処理して発話内容の認識を行うもの
でもよく、要は、移動通信端末27において調音器官の
動きに関する情報に基づいて発話内容の認識を行うもの
であればよく、データセンタ28における学習はこの移
動通信端末27における発話内容の認識方法に対応する
学習を行えばよい。
【0081】また、上記情報認識システム100は、教
師データ取得手段33として、音響情報認識手段及び発
話パターン発生手段20を備えているが、例えば、学習
の精度をそれほど要求しない場合等には、何れか一方を
備えていればよい。
【0082】
【発明の効果】上述したように、本発明に係る学習装
置、移動通信端末、情報認識システム、学習方法によれ
ば、調音器官の動きに関する情報が学習装置に送信さ
れ、調音器官の動きに関する情報に基づいて発話内容の
認識を行うのに必要な認識パラメータを生成するための
計算負荷の高い学習が、移動通信端末でなく学習装置に
よって行われる。これによって、固定型のコンピュータ
等に比べて処理速度やメモリ等の制限の大きい移動通信
端末において学習を行う場合に比して、短時間で効率の
よい学習が可能とされる。また、学習装置において取得
され当該ユーザに適合された認識パラメータが移動通信
端末に送信され、これ以降、移動通信端末において、学
習装置等との情報の送受信をすることなく移動通信端末
のみで、この認識パラメータを用いて発話内容の認識を
高認識率で実施することが可能とされる。
【0083】これにより、屋外や電車内等で用いられる
携帯電話等の移動通信端末において、特に、無声の発話
からの発話内容の認識を、調音器官の動きに関する情報
に基づいて好適に行うことができる。
【図面の簡単な説明】
【図1】本実施形態に係る情報認識システムを示すブロ
ック図である。
【図2】図1中の移動通信端末の筋電信号検出手段の一
例を示す模式図である。
【図3】図1中の移動通信端末の筋電信号検出手段の他
の例を示す模式図である。
【図4】第一の手順による学習方法を示すフロー図であ
る。
【図5】図4の学習方法において、データセンタ側で行
われる工程を抜きだしたフロー図である。
【図6】第二の手順による学習方法を示すフロー図であ
る。
【図7】図7は、図6の学習方法において、データセン
タ側で行われる工程を抜きだしたフロー図である。
【図8】認識パラメータが学習によって改良される手順
を示すフロー図である。
【符号の説明】
15…音響・筋電情報送信手段(調音器官情報送信手
段)、16…発話パターン・認識パラメータ受信手段
(認識パラメータ受信手段)、17…筋電情報認識手段
(情報認識手段)、19…ネットワーク、20…発話パ
ターン発生手段、21…個人情報データベース、22…
発話パターン・認識パラメータ送信手段(認識パラメー
タ送信手段)、23…認識パラメータデータベース、2
4…音響・筋電情報受信手段(調音器官情報受信手
段)、25…音響情報認識手段、26…筋電情報学習手
段(学習手段)、27…移動通信端末、28…データセ
ンタ(学習装置)、30…筋電情報取得手段(調音器官
情報取得手段)、31…音響情報取得手段、33…教師
データ取得手段、100…情報認識システム。
フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G10L 3/00 539 (72)発明者 杉村 利明 東京都千代田区永田町二丁目11番1号 株 式会社エヌ・ティ・ティ・ドコモ内 Fターム(参考) 5D015 FF00 GG03 KK02 5K067 BB04 DD54 EE23 FF23 FF25 HH23

Claims (15)

    【特許請求の範囲】
  1. 【請求項1】 ネットワークを介して互いに通信可能な
    移動通信端末と共に、当該移動通信端末のユーザが発話
    動作する際の調音器官の動きに関する情報に基づいて発
    話の内容を認識する情報認識システムを構成する学習装
    置であって、 前記移動通信端末から送信される前記調音器官の動きに
    関する情報を受信する調音器官情報受信手段と、 前記ユーザの発話動作に対応する教師データを取得する
    教師データ取得手段と、 前記調音器官の動きに関する情報と、前記教師データ
    と、に基づいて、前記発話動作についての発話の内容の
    認識に関する学習を行って認識パラメータを生成する学
    習手段と、 前記認識パラメータを前記移動通信端末に送信する認識
    パラメータ送信手段と、 を備えることを特徴とする、学習装置。
  2. 【請求項2】 前記学習手段により生成された認識パラ
    メータを前記ユーザ毎に格納する認識パラメータデータ
    ベースを備え、 前記学習手段は、前記学習によって認識パラメータを生
    成する際に、当該ユーザに対して過去に生成された認識
    パラメータを参照することを特徴とする、請求項1に記
    載の学習装置。
  3. 【請求項3】 前記教師データ取得手段は、前記ユーザ
    が発話すべき発話パターンを発生して教師データとする
    発話パターン生成手段を備え、 前記認識パラメータ送信手段は、さらに当該発話パター
    ンを前記移動通信端末に対して送信することを特徴とす
    る、請求項1又は2に記載の学習装置。
  4. 【請求項4】 前記ユーザに関する個人情報が当該ユー
    ザに対応づけて格納された個人情報データベースを備
    え、 前記発話パターン生成手段は、前記ユーザに関する個人
    情報に基づいて前記発話パターンを生成することを特徴
    とする、請求項3に記載の学習装置。
  5. 【請求項5】 前記調音器官情報受信手段は、さらに前
    記移動通信端末から送信される前記発話動作の際の音響
    に関する情報を受信し、 前記教師データ取得手段は、前記音響に関する情報に基
    づく音声認識を行って前記発話動作に対応する教師デー
    タを得る音響情報認識手段を備えることを特徴とする、
    請求項1〜4の何れか一項に記載の学習装置。
  6. 【請求項6】 ネットワークを介して互いに通信可能な
    学習装置と共に、ユーザが発話動作をする際の前記ユー
    ザの調音器官の動きに関する情報に基づいて発話の内容
    を認識する情報認識システムを構成する移動通信端末で
    あって、 前記ユーザが発話動作する際の前記ユーザの調音器官の
    動きに関する情報を取得する調音器官情報取得手段と、 前記調音器官の動きに関する情報を前記学習装置に送信
    する調音器官情報送信手段と、 前記学習装置から送信される前記発話の内容の認識に関
    する認識パラメータを受信する認識パラメータ受信手段
    と、 前記調音器官の動きに関する情報と、前記認識パラメー
    タと、に基づいて、前記発話動作についての発話の内容
    の認識を行う情報認識手段と、 を備えることを特徴とする、移動通信端末。
  7. 【請求項7】 前記認識パラメータ受信手段は、さらに
    前記学習装置から送信される発話パターンを受信し、 前記発話パターンを前記ユーザに対して提示する発話パ
    ターン提示手段を備えることを特徴とする、請求項6に
    記載の移動通信端末。
  8. 【請求項8】 前記発話動作がなされる際に発生する音
    響に関する情報を取得する音響取得手段を備え、 前記調音器官情報送信手段は、さらに前記音響に関する
    情報を前記学習装置に送信することを特徴とする、請求
    項6又は7に記載の移動通信端末。
  9. 【請求項9】 移動通信端末と、前記移動通信端末とネ
    ットワークを介して通信可能な学習装置と、を含んで構
    成され、前記移動通信端末のユーザが発話動作をする際
    の前記ユーザの調音器官の動きに関する情報に基づいて
    発話の内容を認識する情報認識システムであって、 前記移動通信端末は、ユーザが発話動作する際の前記ユ
    ーザの調音器官の動きに関する情報を取得する調音器官
    情報取得手段と、 前記調音器官の動きに関する情報を前記学習装置に送信
    する調音器官情報送信手段と、 前記学習装置から送信される、前記発話の内容の認識に
    関する認識パラメータを受信する認識パラメータ受信手
    段と、 前記調音器官の動きに関する情報と、前記認識パラメー
    タと、に基づいて、前記発話動作についての発話の内容
    の認識を行う情報認識手段と、を備え、 前記学習装置は、前記移動通信端末から送信される前記
    調音器官の動きに関する情報を受信する調音器官情報受
    信手段と、 前記ユーザの発話動作に対応する教師データを取得する
    教師データ取得手段と、 前記調音器官の動きに関する情報と、前記教師データ
    と、に基づいて前記発話動作についての発話の内容の認
    識に関する学習を行って認識パラメータを生成する学習
    手段と、 前記認識パラメータを前記移動通信端末に送信する認識
    パラメータ送信手段と、を備えることを特徴とする、情
    報認識システム。
  10. 【請求項10】 移動通信端末と、前記移動通信端末と
    ネットワークを介して通信可能な学習装置と、を含んで
    構成され、前記移動通信端末のユーザが発話動作をする
    際の前記ユーザの調音器官の動きに関する情報に基づい
    て前記発話の内容を認識する情報認識システムにおける
    学習方法であって、 前記移動通信端末が、前記ユーザが発話動作する際の前
    記ユーザの調音器官の動きに関する情報を取得する調音
    器官情報取得工程と、 前記移動通信端末が、前記調音器官の動きに関する情報
    を前記学習装置に送信する調音器官情報送信工程と、 前記学習装置が、前記移動通信端末から送信される前記
    調音器官の動きに関する情報を受信する調音器官情報受
    信工程と、 前記学習装置が、前記ユーザの発話動作に対応する教師
    データを取得する教師データ取得工程と、 前記学習装置が、前記調音器官の動きに関する情報と、
    前記教師データと、に基づいて前記発話動作についての
    発話の内容の認識に関する学習を行って認識パラメータ
    を生成する学習工程と、 前記学習装置が、前記認識パラメータを前記移動通信端
    末に送信する認識パラメータ送信工程と、 前記移動通信端末が、前記学習装置から送信される認識
    パラメータを受信する認識パラメータ受信工程と、 を含むことを特徴とする、学習方法。
  11. 【請求項11】 移動通信端末のユーザが発話動作する
    際の調音器官の動きに関する情報に基づいて発話の内容
    を認識する情報認識システムを構成する学習装置におけ
    る学習方法であって、 移動通信端末から送信される前記調音器官の動きに関す
    る情報を受信する調音器官情報受信工程と、 前記ユーザの発話動作に対応する教師データを取得する
    教師データ取得工程と、 前記調音器官の動きに関する情報と、前記教師データ
    と、に基づいて、前記発話動作についての発話の内容の
    認識に関する学習を行って認識パラメータを生成する学
    習工程と、 前記認識パラメータを前記移動通信端末に送信する認識
    パラメータ送信工程と、 を含むことを特徴とする、学習方法。
  12. 【請求項12】 前記学習工程により生成された認識パ
    ラメータを前記ユーザ毎に格納する認識パラメータ格納
    工程をさらに含み、 前記学習工程において、前記学習によって認識パラメー
    タを生成する際に、当該ユーザに対して過去に生成した
    認識パラメータを参照することを特徴とする、請求項1
    1に記載の学習方法。
  13. 【請求項13】 前記教師データ取得工程は、 前記ユーザが発話すべき発話パターンを発生して教師デ
    ータとする発話パターン生成工程と、 前記発話パターンを前記移動通信端末に対して送信する
    発話パターン送信工程と、 を含むことを特徴とする、請求項11又は12に記載の
    学習方法。
  14. 【請求項14】 前記ユーザに関する個人情報を当該ユ
    ーザに対応づけて格納する個人情報格納工程をさらに含
    み、 前記発話パターン生成工程は、前記ユーザに関する個人
    情報に基づいて前記発話パターンを生成することを特徴
    とする、請求項13に記載の学習方法。
  15. 【請求項15】 前記調音器官情報受信工程において、
    さらに移動通信端末から送信される前記発話動作の際の
    音響に関する情報を受信し、 前記教師データ取得工程において、前記音響に関する情
    報に基づく音声認識を行って前記発話動作に対応する教
    師データを得ることを特徴とする、請求項11〜14の
    何れか一項に記載の学習方法。
JP2003037064A 2002-02-19 2003-02-14 学習装置、移動通信端末、情報認識システム、及び、学習方法 Pending JP2003316387A (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP2003037064A JP2003316387A (ja) 2002-02-19 2003-02-14 学習装置、移動通信端末、情報認識システム、及び、学習方法
US10/367,886 US7216078B2 (en) 2002-02-19 2003-02-19 Learning device, mobile communication terminal, information recognition system, and learning method
DE60315907T DE60315907T2 (de) 2002-02-19 2003-02-19 Lernverfahren und -vorrichtung, mobiles Kommunikationsterminal und Informations-Erkennungssystem, basierend auf der Analyse von Bewegungen der Sprachorgane eines sprechenden Benutzers
EP03003781A EP1336947B1 (en) 2002-02-19 2003-02-19 Learning method and device, mobile communication terminal and information recognition system based on the analysis of user articulation movements during speech
CNB031037941A CN100426818C (zh) 2002-02-19 2003-02-19 数据中心、移动通信终端、信息识别系统以及学习方法

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2002-42072 2002-02-19
JP2002042072 2002-02-19
JP2003037064A JP2003316387A (ja) 2002-02-19 2003-02-14 学習装置、移動通信端末、情報認識システム、及び、学習方法

Publications (1)

Publication Number Publication Date
JP2003316387A true JP2003316387A (ja) 2003-11-07

Family

ID=27624635

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003037064A Pending JP2003316387A (ja) 2002-02-19 2003-02-14 学習装置、移動通信端末、情報認識システム、及び、学習方法

Country Status (5)

Country Link
US (1) US7216078B2 (ja)
EP (1) EP1336947B1 (ja)
JP (1) JP2003316387A (ja)
CN (1) CN100426818C (ja)
DE (1) DE60315907T2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014054384A1 (ja) 2012-10-04 2014-04-10 日本電気株式会社 ユーザ指示認識システム、ユーザ指示認識方法、情報処理装置、携帯端末およびその制御方法と制御プログラム

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004016658A (ja) 2002-06-19 2004-01-22 Ntt Docomo Inc 生体信号測定可能な携帯型端末および測定方法
CN100464327C (zh) * 2005-03-28 2009-02-25 新诺亚舟科技(深圳)有限公司 一种手持终端设备所播放的多媒体文件的生成方法
US8214208B2 (en) * 2006-09-28 2012-07-03 Reqall, Inc. Method and system for sharing portable voice profiles
US20100178956A1 (en) * 2009-01-14 2010-07-15 Safadi Rami B Method and apparatus for mobile voice recognition training
CN102063903B (zh) * 2010-09-25 2012-07-04 中国科学院深圳先进技术研究院 言语交互训练系统及方法
KR102246893B1 (ko) * 2013-12-11 2021-04-30 삼성전자주식회사 대화형 시스템, 이의 제어 방법, 대화형 서버 및 이의 제어 방법

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4096645A (en) * 1976-11-08 1978-06-27 Thomas Herbert Mandl Phonetic teaching device
US5313522A (en) * 1991-08-23 1994-05-17 Slager Robert P Apparatus for generating from an audio signal a moving visual lip image from which a speech content of the signal can be comprehended by a lipreader
US5586215A (en) * 1992-05-26 1996-12-17 Ricoh Corporation Neural network acoustic and visual speech recognition system
JP3455921B2 (ja) 1993-12-24 2003-10-14 日本電信電話株式会社 発声代行装置
US6471420B1 (en) * 1994-05-13 2002-10-29 Matsushita Electric Industrial Co., Ltd. Voice selection apparatus voice response apparatus, and game apparatus using word tables from which selected words are output as voice selections
US6006175A (en) * 1996-02-06 1999-12-21 The Regents Of The University Of California Methods and apparatus for non-acoustic speech characterization and recognition
FR2761800A1 (fr) * 1997-04-02 1998-10-09 Scanera Sc Dispositif de transmission de voix et telephone le mettant en oeuvre
US6185529B1 (en) * 1998-09-14 2001-02-06 International Business Machines Corporation Speech recognition aided by lateral profile image
US6463413B1 (en) * 1999-04-20 2002-10-08 Matsushita Electrical Industrial Co., Ltd. Speech recognition training for small hardware devices

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014054384A1 (ja) 2012-10-04 2014-04-10 日本電気株式会社 ユーザ指示認識システム、ユーザ指示認識方法、情報処理装置、携帯端末およびその制御方法と制御プログラム
US9766695B2 (en) 2012-10-04 2017-09-19 Nec Coproration User instruction recognition system and methods

Also Published As

Publication number Publication date
CN100426818C (zh) 2008-10-15
EP1336947B1 (en) 2007-08-29
US20030182112A1 (en) 2003-09-25
CN1442992A (zh) 2003-09-17
EP1336947A3 (en) 2005-02-23
DE60315907T2 (de) 2008-05-15
DE60315907D1 (de) 2007-10-11
US7216078B2 (en) 2007-05-08
EP1336947A2 (en) 2003-08-20

Similar Documents

Publication Publication Date Title
Tran et al. Improvement to a NAM-captured whisper-to-speech system
US20020111794A1 (en) Method for processing information
US11915705B2 (en) Facial movements wake up wearable
JP2003255993A (ja) 音声認識システム、音声認識方法、音声認識プログラム、音声合成システム、音声合成方法、音声合成プログラム
JP2008309856A (ja) 音声認識装置及び会議システム
US20180350362A1 (en) Information processing apparatus
JP2023539888A (ja) 声変換および音声認識モデルを使用した合成データ拡大
KR102444012B1 (ko) 말 장애 평가 장치, 방법 및 프로그램
EP1341159B1 (en) Speech information recognition device and speech information recognition method based on myoelectrical signal analysis
CN112786052A (zh) 语音识别方法、电子设备和存储装置
Fu et al. SVoice: enabling voice communication in silence via acoustic sensing on commodity devices
JP2003316387A (ja) 学習装置、移動通信端末、情報認識システム、及び、学習方法
US20230252971A1 (en) System and method for speech processing
US20230148275A1 (en) Speech synthesis device and speech synthesis method
US20230146945A1 (en) Method of forming augmented corpus related to articulation disorder, corpus augmenting system, speech recognition platform, and assisting device
WO2023012546A1 (en) Deciphering of detected silent speech
CN115705841A (zh) 使用加速度计感测骨传导的语音识别
EP1271469A1 (en) Method for generating personality patterns and for synthesizing speech
JP4381404B2 (ja) 音声合成システム、音声合成方法、音声合成プログラム
JP6712028B1 (ja) 認知機能判定装置、認知機能判定システム及びコンピュータプログラム
Lin et al. Nonverbal acoustic communication in human-computer interaction
US20220383850A1 (en) System and method for posthumous dynamic speech synthesis using neural networks and deep learning
KR20090081046A (ko) 인터넷을 이용한 언어 학습 시스템 및 방법
Miyazaki et al. Connectionist temporal classification-based sound event encoder for converting sound events into onomatopoeic representations
Kinkiri Detection of the uniqueness of a human voice: towards machine learning for improved data efficiency

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050411

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20071016

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20071023

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071225

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20081216