JP2005049713A - 単音声による文字入力システム - Google Patents

単音声による文字入力システム Download PDF

Info

Publication number
JP2005049713A
JP2005049713A JP2003283199A JP2003283199A JP2005049713A JP 2005049713 A JP2005049713 A JP 2005049713A JP 2003283199 A JP2003283199 A JP 2003283199A JP 2003283199 A JP2003283199 A JP 2003283199A JP 2005049713 A JP2005049713 A JP 2005049713A
Authority
JP
Japan
Prior art keywords
voice
user
data
user terminal
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003283199A
Other languages
English (en)
Inventor
Hitoshi Kimura
仁志 木村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to JP2003283199A priority Critical patent/JP2005049713A/ja
Publication of JP2005049713A publication Critical patent/JP2005049713A/ja
Pending legal-status Critical Current

Links

Abstract

【課題】 クライアントサーバ方式を利用した簡便な単音文字入力において、ユーザーごとの音声の特徴に対応し、認識率が高い簡便な入力システムの構築。
【解決手段】 サーバーに、ユーザー情報記憶手段と、ユーザー端末から送信された、ユーザーが発生する単音ごとの音声データを受信して、ユーザーごとの単音声辞書データを作成し登録する単音声データ登録手段と、前記の単音声データ登録手段により登録された単音声辞書データをユーザーごとに記憶する単音声データ記憶手段と、ユーザー端末において音声入力され送信された音声データを単音ごとに分離して受領する単音声データ受領手段と、分離され受領された単音声データごとに、前記の単音声辞書データを参照して音声認識を行う音声認識手段とを備える。
【選択図】 図1

Description

本発明は、単音声による文字入力システムに関する。
従来、文字入力の作業にはユーザーのキー入力装置ヘの操作が必要であった。
また携帯電話などの端末装置では、入力キーの数量が限られているために入力を行うことが困難である。
一方、文字入力を補助する方法として、音声入力・音声認識を行うための技術が様々に開発されている。
特開2002−269047号公報
たとえば特開2002−269047「音声ユーザ認証システム」においては、ユーザの利便性を損なわず、現実的に安全であり、サーバとネットワークの負荷が少ない携帯端末を使用する音声ユーザ認証システムが提案されている。
ユーザー認証においてユーザーの音声認識を行うものであるが、ユーザー認証に限定されているために、音声認識をする音声が限られており、50音の単音すべてを認識するものではない。
特開2002−157113号公報
特開2002−157113「オンライン・インタラクティブ音声認識システムおよび音声認識方法」においては、インターネットを利用しているユーザが、遠隔サーバ・システムのデータベースから、オンライン・インタラクティブ音声認識システムにアクセスできる内容が開示されている。
クライアント・システムに音声認識エンジンをセットアップし、ユーザが、遠隔サーバ・システムから提供されたウェブ・ページ上で、語学レッスンまたはロール・プレイなどを選び、インタラクティブ音声認識システムおよびオンライン・データベースを交互に使用し、ウェブ・サイトで提供される学習コンテンツにアクセスし、インタラクティブ音声認識による会話練習を行うものである。
サーバーから指示された発音項目を受信して、クライアントにおいて音声認識エンジンに送り、受信した発音項目と前記音声データとの認識比較結果を取得し、表示するものであり、音声認識はクライアント端末のみにおいて行われるものである。サーバーは、発音をする項目の、比較対象となる音声データを記憶しているだけである。
特開平11−327594号公報
ところで、音声認識に際しては、ユーザーごとに発音や、音声の大きさ、アクセントなどが異なるために、ユーザーごとの音声を、単音ごとに入力し登録しておくことが必要となる。
特開平11−327594「音声合成辞書作成システム」においては、規則音声合成辞書作成システムにおいて、登録すべき話者の声質如何によらず、規則音声合成の音声辞書を自動的に作成するシステムが提案されている。
特定話者の音声を学習して特定話者音声辞書を作成する音声学習手段と、前記特定話者音声辞書を用い前記特定話者と同一話者の音声を音声合成用の合成単位毎に分けて切り出す合成単位切り出し手段と、その合成単位切り出し手段によって切り出された各合成単位の音声から、各合成単位の音声辞書を作成する、辞書作成手段を有するシステムである。
特定話者と同一話者の音声を音声合成用の合成単位毎に分けて切り出し辞書を作成するものであるが、音声認識はクライアント端末のみにおいて行われるものである。
特開平11−65590号公報
今日、インターネット普及や、インターネットにアクセス可能な携帯電話、各種の携帯情報端末の普及により、インターネットのクライアントサーバ方式を利用した簡便な単音文字入力の方法が求められている。
特開平11−65590「音声認識ダイアル装置」においては、携帯電話機等における氏名と電話番号登録操作、およびダイアル操作等のキー操作における煩雑さを低減する音声認識ダイアル装置が提案されており、日本人全氏名のデータベースを単音節コード単位であらかじめデータベースとしてROM等に格納しておき、これと単音節単位で認識処理可能な不特定話者半音節音声認識器により、氏名および電話番号を単音節単位で離散発声した音声信号から自動登録させることによる音声登録機能と、登録された氏名および電話番号の単音節コードを認識対象とした不特定話者半音節音声認識器による認識処理により、音声ダイアルを行う機能とにより、キー操作を低減できるというものである。
ダイヤル操作を省くために音声認識を行うという、特定分野に関する内容であるが、音声認識による入力は様々なアプリケーションプログラムで利用可能にされることが求められており、本出願においては解決されていない。
また、単音節の登録は、ユーザーごとに行うわけではなく、ユーザーごとの音声の特徴には対応していない。
さらに、音声認識はサーバー側で受信したアナログ音声データにより行われるために、サーバーに送信されるデータ量が大きく、音声認識の実行には時間や負荷が大きい。
特開平10−97270号公報
特開平10−97270「音声認識装置」においては、タイプライタペナルティ値の設定やガーベジモデルの作成を必要とせず、未知語に対して頑健な音声認識方法を実現する装置が提案されており、音声認識をするための、単音節の登録が記載されている。単音節の登録は、ユーザーごとに行うわけではなく、ユーザーごとの音声の特徴には対応していない。
さらに、音声認識はクライアントサーバー間で行われるものではない。
特開平8−335093号公報
さらに特開平8−335093「音声認識方法およびこの方法を実施する装置」においては、単音節認識、複数音節認識を併用して単音節入力の効率を向上するための装置及び方法が提案されている。
単音節の音声およびこの単音節の音声をこれに対応する複数音節から成る音声により読み替えた音声を入力して音声認識し、認識結果を単音節に相当するラベル名により出力する音声認識方法において、単音節の音声を入力して得られる音声認識結果を複数音節の音声を入力して得られる音声認識結果により同定する音声認識方法である。
音声認識をするための、単音節の登録が記載されているが、単音節の登録は、ユーザーごとに行うわけではなく、ユーザーごとの音声の特徴には対応していない。
さらに、音声認識はクライアントサーバー間で行われるものではない。
本発明においては、上記の様々な課題を解決し、インターネットのクライアントサーバ方式を利用した簡便な単音文字入力において、ユーザーごとの音声の特徴に対応し、様々なアプリケーションプログラムで利用可能な音声入力・音声認識が可能なシステムを提供することを目的とする。
また本発明のシステムにおいては、送信されるデータはパターンデータとすることにより、送信されるデータ量を少なくし、音声認識の実行速度を向上させることを目的とする。
これにより認識率が高い、簡便な入力システムの構築を可能にするものである。
上記課題を解決するため、請求項1に記載の発明においては、
入力手段、制御手段、表示手段、出力手段、記憶手段等を備えるコンピュータ等のユーザー端末からインターネットに代表される通信手段を介してアクセスが行われるサーバーを少なくとも含み構成されるシステムであって、
前記のサーバーには、ユーザーごとに、少なくともユーザーを識別するユーザー情報と、ユーザーがアクセスするための認証情報とを記憶するユーザー情報記憶手段と、
ユーザー端末から送信された、ユーザーが発生する単音ごとの音声データを受信して、ユーザーごとの単音声辞書データを作成し登録する単音声データ登録手段と、
前記の単音声データ登録手段により登録された単音声辞書データをユーザーごとに記憶する単音声データ記憶手段と、
ユーザー端末において音声入力され送信された音声データを単音ごとに分離して受領する単音声データ受領手段と、
分離され受領された単音声データごとに、前記の単音声辞書データを参照して音声認識を行う音声認識手段とを少なくとも備えた、単音声による文字入力システムであることを特徴としている。
また、上記課題を解決するため、請求項2に記載の発明においては、
入力手段、制御手段、表示手段、出力手段、記憶手段等を備えるコンピュータ等のユーザー端末からインターネットに代表される通信手段を介してアクセスが行われるサーバーと、通信手段と、ユーザー端末と少なくともを含み構成されるシステムであって、
前記のサーバーには、ユーザーごとに、少なくともユーザーを識別するユーザー情報と、ユーザーがアクセスするための認証情報とを記憶するユーザー情報記憶手段と、
ユーザー端末から送信された、ユーザーが発生する単音ごとの音声データを受信して、ユーザーごとの単音声辞書データを作成し登録する単音声データ登録手段と、
前記の単音声データ登録手段により登録された単音声辞書データをユーザーごとに記憶する単音声データ記憶手段と、
ユーザー端末において音声入力され送信された音声データを単音ごとに分離して受領する単音声データ受領手段と、
分離され受領された単音声データごとに、前記の単音声辞書データを参照して音声認識を行う音声認識手段とを少なくとも備えた、単音声による文字入力システムであることを特徴としている。
また、上記課題を解決するため、請求項3に記載の発明においては、
請求項1または2のいずれかに記載の発明において、
前記のサーバーにはさらに、前記の音声認識手段により認識された単音、または単音が複数連なった複数音を、文字入力候補として一時記憶する文字入力候補記憶手段と、
ユーザー端末から送信された入力信号に従い、文字入力候補を確定する文字入力確定手段とが備えられた、単音声による文字入力システムであることを特徴としている。
また、上記課題を解決するため、請求項4に記載の発明においては、
請求項1〜3のいずれかに記載の発明において、
ユーザー端末から送信される文字入力候補を確定するための入力信号は、ユーザー端末において入力される指示入力信号である、単音声による文字入力システムであることを特徴としている。
また、上記課題を解決するため、請求項5に記載の発明においては、
請求項4に記載の発明において、
ユーザー端末から送信される文字入力候補を確定するための入力信号は、ユーザー端末において機能キーを用いて入力される指示入力信号である、単音声による文字入力システムであることを特徴としている。
また、上記課題を解決するため、請求項6に記載の発明においては、
請求項1〜5のいずれかに記載の発明において、
前記の単音声データ受領手段は、ユーザー端末において音声入力された音声データを単音ごとに音声パターンデータとして受領するものであり、
サーバーが備える前記の音声認識手段は、ユーザー端末から送信された単音声データごとに、音声パターンデータとして記憶された単音声辞書データを参照して音声認識を行うものである、単音声による文字入力システムであることを特徴としている。
また、上記課題を解決するため、請求項7に記載の発明においては、
請求項6に記載の発明において、
前記の音声認識手段は、ユーザー端末において入力され分析された単音データの特徴パラメータの整合特点数により認識結果を決定する、単音声による文字入力システムであることを特徴としている。
また、上記課題を解決するため、請求項8に記載の発明においては、
請求項2〜7のいずれかに記載の発明において、
ユーザー端末には、単音声入力機能と、単音声分析機能と、単音声データ送信機能とを少なくとも備え、サーバーと連携して機能する単音声入力プログラムが備えられた、単音声による文字入力システムであることを特徴としている。
また、上記課題を解決するため、請求項9に記載の発明においては、
請求項1〜8のいずれかに記載の発明において、
単音声による文字入力は、入力結果を受領するアプリケーションプログラムをユーザー端末において指定可能にされたことを特徴とする、単音声による文字入力システムであることを特徴としている。
本発明によれば、インターネットのクライアントサーバ方式を利用した簡便な単音文字入力において、ユーザーごとの音声の特徴に対応し、様々なアプリケーションプログラムで利用可能な音声入力・音声認識が可能なシステムを提供することができる。
また本発明のシステムによれば、送信されるデータはパターンデータとすることにより、送信されるデータ量を少なくし、音声認識の実行速度を向上させることができる。
これにより認識率が高い、簡便な入力システムの構築を可能にする。
以下、本発明の実施の形態について図面を参照して説明する。
図1は、本発明のシステムの基本的な構成の一例を示すシステム構成図である。
本発明のシステムは、クライアント側は音声認識の単位を音声(単語)ではなくて単音ごとの辞書データを利用し、さらに好ましくは単音をクライアント側で圧縮してパターン化したデータとしてサーバーに送信することにより登録し、あらかじめ登録してあるユーザーごとの単音パターンデータと、音声認識を行う単音ごとの音声データとを比べることにより入力する文字を認識し、サーバー側またはクライアント側において新式された文字を指定したアプリケーションに入力するシステムである。これにより認識率が高い、簡便な入力システムの構築が可能とするシステムである。
本発明のシステムは、入力手段、制御手段、表示手段、出力手段、記憶手段等を備えるコンピュータ等のユーザー端末からインターネットに代表される通信手段を介してアクセスが行われるサーバーを少なくとも含み構成されるシステムであって、通常の形態においてはサーバーと、通信手段と、ユーザー端末と少なくともを含み構成されるシステムである。
本発明のシステムを利用するためのユーザー端末としては、通常、パーソナルコンピュータやワークステーション、サーバー装置などのコンピュータ端末が用いられる。コンピュータ端末は、制御手段、記憶手段、入力手段、出力手段、表示手段などを備える。またインターネットに代表されるコンピュータネットワークに接続詞、データの送受信を行う機能を備え、ブラウザや電子メールソフトウェア、ワードプロセッサなどのアプリケーションプログラムや、オペレーティングシステム(OS)を備えることが通常の形態である。インターネットに連結できる単音入力手段と画面表示手段を持つすべての装置を利用することができる。
サーバーは、インターネットに代表されるネットワークに接続されて備えられ、ネットワークに接続する一般事業者端末からアクセスされる。ネットワークには、インターネットをはじめとして、専用線により接続されたネットワーク形態や、企業内LAN、企業間LAN、WANなどの形態を広く含む。またここで用いられる通信回線の形態には、有線通信、無線通信の形態を広く含み、衛星通信や、Bluetoothなどを用いた形態を含む。
サーバーは、通常は、アプリケーションサーバー、データベースサーバー、認証サーバー、WEBサーバー、その他必要に応じメールサーバー、その他の各種装置により構成することができる。
これらの各サーバーは、物理的に同一の装置に設けられる形態や、物理的に複数の装置からなる形態、あるいはネットワークを介して接続される物理的に複数の装置からなる形態などを含み、機能的に同様の機能が実現されるならば、様々な形態を含む。
前記のサーバーには、ユーザーごとに、少なくともユーザーを識別するユーザー情報と、ユーザーがアクセスするための認証情報とを記憶するユーザー情報記憶手段を備えている。
ユーザー認証には様々な認証方法を利用することができるが、代表的な方式としては、ユーザー端末からユーザー登録を行い、ユーザーIDやパスワードなどが発行される形態が一般的には用いられる。
ユーザー情報記憶手段に記憶される情報としては、氏名、住所、電話番号、決済方法に関する情報、電子メールアドレスなどのユーザー情報と、ユーザーIDやパスワードなどの認証情報とが一例としてあげられる。
図2はユーザー情報記憶手段に記憶されるデータの一例を示す。
初めに、音声認識を行う前提として、ユーザーごとのサーバーへの単音声データの登録が必要である。
ユーザー端末には、単音声入力機能と、単音声分析機能と、単音声データ送信機能とを少なくとも備え、サーバーと連携して機能する単音声入力プログラムが備えられている。
図3は、単音声入力プログラムの一例を示すブロック図である。
単音声入力プログラムは、ユーザー端末において音声認識の単位を音声(単語)ではなくて単音ごとの辞書データとして入力し、好ましくは単音をクライアント側で圧縮してパターン化したデータとして変換し、ユーザーごとかつ単音ごとのパターンデータをサーバーに送信し登録する機能を備える。
ユーザー端末において、マイク等の音声入力手段を用いてユーザーが音声を入力する。
ユーザーID等で識別されるユーザーごとに、単音ごとに入力した場合には単音ごとの音声アナログ信号をAD変換したPCM信号、複数音を入力した場合には音声アナログ信号をAD変換したPCM信号を解析して単音ごとに分割したPCM信号等の単音データの特徴パラメータ分析をする。
ここでは音声認識パターンとしてHHM(hidden markov mode)を利用した単音認識システムのガウシアンを用いる。HMM(hidden markov
model)は、確立オートマンの1種で単音の特徴パラメータの時間的変化と確率的な変動を統計的に扱う手法。最近の単音認識で最もよく用いられる手法となっているものである。
つまり単音入力システムのガウス分布(平均値と共分散で特徴づけられる楕円形分布)の要素であるガウシアン(gaussian)の整合(matching)得点数を計算する。整合得点数列(matching score real array)は、単音データをデータベースの標準パターン(データベースの音素HMM)と比較した得点(score)列である。
ユーザー端末において求められた単音ごとの整合得点数列のデータは、サーバーに送信される。
サーバーにおいては、ユーザー端末から送信されたユーザーが発生する単音ごとの音声データを受信して、ユーザーごとの単音声辞書データを作成し登録する単音声データ登録手段を備えている。
単音声データ登録手段は、ユーザー認証により識別されたユーザーごとに、単音声辞書データを作成するが、単音声辞書データは、ユーザー端末から送信された単音声ごとに、すべての単音声ごとの整合得点数列のデータを後述する単音声データ記憶手段に登録する。
前記の単音声データ登録手段により登録された単音声辞書データをユーザーごとに記憶する単音声データ記憶手段を備えている。
単音入力において登録する単音は、日本語の場合には下記の50音表に含まれる各文字である。
「あいうえお かきくけこ さしすせそ たちつてと なにぬねの はひふへほ まみむめも やゆよ らりるれろ わをん がぎぐげご ざじずぜぞ だぢずでど ぱぴぷぺぽ」
また、音声認識の際に後述する小字キーや長音キーを用いて、音声認識による文字入力をすることができるが、前記の50音表の文字以外にも、たとえば「ヴァ」「ウィ」などの文字が認識結果として出力されるように、単音登録しておくようにすることもできる。
次に、あらかじめ登録されているユーザーごとの単音声データに基づき、ユーザーが音声認識処理を実行させるための構成について説明する。
サーバーは、ユーザー端末において音声入力され送信された音声データを単音ごとに受領する単音声データ受領手段を備えている。
単音声データ受領手段は、ユーザー端末において音声入力された音声データを単音ごとに音声パターンデータとして受領するものである。
ユーザー端末には前記の通り、単音声入力プログラムが備えられており、単音声入力機能と、単音声分析機能と、単音声データ送信機能とを少なくとも備え、サーバーと連携して機能する。
音声認識を実行する際には、ユーザー端末において、マイクなどの音声入力装置により音声認識させたい音声を入力するが、単音ごとに入力した場合には単音ごとの音声アナログ信号をAD変換したPCM信号、複数音を入力した場合には音声アナログ信号をAD変換したPCM信号を解析して単音ごとに分割したPCM信号等の単音データの特徴パラメータ分析をする。
また、単音声による音声認識の結果、決定される文字入力は、ユーザー端末において起動しデータ入力を行うアプリケーションプログラム、またはサーバーに備えられるウェブ・アプリケーションプログラムなどのプログラムにおいて利用することができ、入力結果を受領するアプリケーションプログラムをユーザー端末において指定可能にされている。
ユーザー端末において求められた、音声認識をさせるために入力された音声の、単音ごとの整合得点数列のデータは、サーバーに送信される。
次にサーバーは、受領された単音声データごとに、前記の単音声辞書データを参照して音声認識を行う音声認識手段を備えている。音声認識手段は、ユーザー端末から送信された単音声データごとに、音声パターンデータとして記憶された単音声辞書データを参照して音声認識を行うものである。
音声認識手段は、音声認識の実行の際に、ユーザー端末において入力され分析された単音データの特徴パラメータの整合特点数により認識結果を決定する。
サーバーにおいて、単音声データ受領手段はクライアントから整合得点数列を受信し、音声認識手段が、仮説探索し認識を実行する。仮説検索(hypothesis search)は、単音データが入力される時そのデータがある単音であるという仮説をいくつかたて各仮説に対する条件付確立を計算し1番高い確率値をもつ仮説にたいする単音を認識結果と認める統計的手法である。
音声認識手段は、認識した結果を文字情報としてユーザー端末に送信する。
ユーザー端末においては、サーバーから認識された結果を受信し、対応するキーボード入力事象を発生させて目的のアプリケーションに文字が入力される。
また、好ましい実施形態によれば、サーバーにはさらに、前記の音声認識手段により認識された単音、または単音が複数連なった複数音を、文字入力候補として一時記憶する文字入力候補記憶手段と、ユーザー端末から送信された入力信号に従い、文字入力候補を確定する文字入力確定手段とが備えられている。
認識結果は、近いものから第1候補以外にも、次点以下の候補までユーザー端末に送信され、入力も次候補として表示等により出力される。認識結果として複数候補を用いることにより、認識確度が上がることになる。
入力候補の中から入力文字を確定するために、ユーザー端末から送信される確定指示の入力信号は、ユーザー端末において入力される指示入力信号である。
指示入力信号の一例としては、ユーザー端末において機能キーを用いて入力される指示入力信号である。機能キーとしては、認識結果の第1候補、第2候補、第3候補の中から選択・指定する「第二候補キー」のほか、あらかじめ登録された単音データにはない特殊文字などを入力するために、単音と組み合わせて入力を行う特殊キーを設定しておくことができる。特殊キーの一例は、入力された直前の文字を小字化する「小字キー」、長音を入力する「長音キー」などをキーボード等の入力手段のいずれかのキーに割り当てる。
特殊キーを用いた入力例の一例としては、「ば」「つ」「小字キー」「た」「長音キー」の入力により、「ばったー」の文字入力ができる例があげられる。また「ぢ」と発音したが認識結果として「じ」を得た場合に、第2候補以下の候補が出力され、第二候補キーを押して「ぢ」を入力する例があげられる。
なお、本発明のシステムを利用した文字入力において、すべての文字を音声入力する場合以外にも、通常のキー入力による文字入力と同時に併用して使えるようにすることが好ましい。
また、単音声データの登録と、あらかじめ登録された単音声データを利用した文字入力は、日本語かな入力以外にも、数字入力、アルファベット入力、記号入力などに利用することができる。
以下、本発明の基本的な処理の流れについて説明する。
図4、図5及び図6は、本発明の基本的な処理の流れの一例を示すフローチャートである。なお、ここに示す処理の流れは一例であって、これに限定されるものではなく、様々な応用や変形が可能である。
初めに図4を参照してユーザーの登録処理について説明する。
ユーザー端末からインターネットに接続し(S100)、サーバーに接続(S101)する。あらかじめユーザー登録処理を行いユーザーIDやパスワードの発行を受け、ユーザー認証処理を行う(S102)。単音声データ登録処理を選択し(S103)、単音声データの登録を行う。また、単音声データの変更、追加などを随時行えることが好ましい。
本発明のシステムにおいて利用する単音声入力プログラムは、ダウンロード可能に備えられることが好ましく、サーバーから単音認識サービスのためのプログラム(サーバと連結,単音入力操作,単音分析データ送信,入力結果受信)をダウンロードして、ユーザー端末にインストールする。
ユーザー端末において単音声入力プログラムを起動し(S104)、マイクなどの音声入力手段を用いてユーザー端末において音声入力を行う(S105)。単音ごとに入力を行い登録するか、または複数音入力の場合には単音に分離する(S106)。単音声入力プログラムにおいて、入力する単音を間違えないように、50音ごとに入力画面などを表示することが好ましい。
次いで単音声単音データ解析処理を行う(S107)。
単音声入力プログラムは、入力された単音データの特徴パラメータ分析をする。
ここでは音声認識パターンとしてHHM(hidden markov mode)を利用した単音認識システムのガウシアンを用いる。つまり単音入力システムのガウシアン(gaussian:*2参照)の整合(matching:*3参照)得点数を計算する。
単音ごとの整合得点数列をサーバーに送信する(S108)。
本発明のシステムによれば、送信されるデータはパターンデータであるために、送信されるデータ量が少なく、音声認識の実行速度が向上する。
たとえば、8khzの単音データを送信するとき、1秒分のデータ量は、
8000 * size of
(short)=16000(バイト/sec)=15.625(kbps)
である。
これに対し、送信されるデータはパターンデータであるために、単音データを分析した後でパターン(ガウシアン)整合得点数列を送る場合には、各フレームに対して2番高い2つのパラメータだけを送信する時、1秒分の単音データは一般的に100個のフレームで分析できるので、1秒分の送信データは
[パターンID +パターンパラメータ]*100
= [size of(char)*2 +size
of(int)*2] *100 = ( 2 + 8 ) * 100 = 1000(byte/sec) = 0.976 (kbps)
である。
一つの1番高いパラメータだけを送信する場合には0.06kbpsである。
サーバーにおいては、単音声データ記憶手段(音響模型データベース、音量模型データベース、単音データベース等)に受信した単音声データを記憶する(S109)。ユーザーは、自分の単音情報(音響模型データベース,音量模型データベース,単音データベース)をサーバに登録する。
次に図5および図6を参照してユーザーの音声認識処理について説明する。
ユーザー端末からインターネットに接続し(S200)、サーバーに接続し(S201)、ユーザー認証処理を経る(S202)。
音声認識処理を選択し(S203)、音声入力を行うアプリケーションプログラムを指定する(S204)。
単音声入力プログラムを起動して(S205)、ユーザー端末において音声入力を行う(S206)。単音ごとに入力を行い登録するか、または複数音入力の場合には単音に分離し(S207)、単音データ解析処理を行う(S208)。
音声入力をした単音ごとの整合得点数列をサーバーに送信し(S209)、サーバーにおいて単音声データ受領手段が受領し、音声認識手段がユーザーの単音声データ記憶手段を参照する(S210)。
整合得点数列に基づき仮説探索を行い音声認識を実行し(S211)、音声認識結果をユーザー端末に送信する(S212)。ユーザー端末において音声認識結果を受信し、文字情報として表示などの出力を行うが(S213)、複数の認識候補がある場合にはこれらを表示等により出力する。また機能キー、特殊キー等による入力と、入力文字の確定処理を必要に応じ行い、音声認識結果を確定する(S214)。
音声入力を行うアプリケーションプログラムが音声認識結果を受領し(S215)、対応するキーボード入力事象を発生させて目的のアプリケーションに文字が入力される。
以上詳細に説明したように、本発明によれば、インターネットのクライアントサーバ方式を利用した簡便な単音文字入力において、ユーザーごとの音声の特徴に対応し、様々なアプリケーションプログラムで利用可能な音声入力・音声認識が可能なシステムを提供することができる。
また本発明のシステムによれば、送信されるデータはパターンデータとすることにより、送信されるデータ量を少なくし、音声認識の実行速度を向上させることができる。
これにより認識率が高い、簡便な入力システムの構築を可能にする。
本発明のシステムの基本的な構成の一例を示すシステム構成図である。 ユーザー情報記憶手段に記憶されるデータの一例を示す。 単音声入力プログラムの一例を示すブロック図である。 本発明の基本的な処理の流れの一例を示すフローチャートである。 本発明の基本的な処理の流れの一例を示すフローチャートである。 本発明の基本的な処理の流れの一例を示すフローチャートである。

Claims (9)

  1. 入力手段、制御手段、表示手段、出力手段、記憶手段等を備えるコンピュータ等のユーザー端末からインターネットに代表される通信手段を介してアクセスが行われるサーバーを少なくとも含み構成されるシステムであって、
    前記のサーバーには、ユーザーごとに、少なくともユーザーを識別するユーザー情報と、ユーザーがアクセスするための認証情報とを記憶するユーザー情報記憶手段と、
    ユーザー端末から送信された、ユーザーが発生する単音ごとの音声データを受信して、ユーザーごとの単音声辞書データを作成し登録する単音声データ登録手段と、
    前記の単音声データ登録手段により登録された単音声辞書データをユーザーごとに記憶する単音声データ記憶手段と、
    ユーザー端末において音声入力され送信された音声データを単音ごとに分離して受領する単音声データ受領手段と、
    分離され受領された単音声データごとに、前記の単音声辞書データを参照して音声認識を行う音声認識手段とを少なくとも備えたことを特徴とする、単音声による文字入力システム。
  2. 入力手段、制御手段、表示手段、出力手段、記憶手段等を備えるコンピュータ等のユーザー端末からインターネットに代表される通信手段を介してアクセスが行われるサーバーと、通信手段と、ユーザー端末と少なくともを含み構成されるシステムであって、
    前記のサーバーには、ユーザーごとに、少なくともユーザーを識別するユーザー情報と、ユーザーがアクセスするための認証情報とを記憶するユーザー情報記憶手段と、
    ユーザー端末から送信された、ユーザーが発生する単音ごとの音声データを受信して、ユーザーごとの単音声辞書データを作成し登録する単音声データ登録手段と、
    前記の単音声データ登録手段により登録された単音声辞書データをユーザーごとに記憶する単音声データ記憶手段と、
    ユーザー端末において音声入力され送信された音声データを単音ごとに分離して受領する単音声データ受領手段と、
    分離され受領された単音声データごとに、前記の単音声辞書データを参照して音声認識を行う音声認識手段とを少なくとも備えたことを特徴とする、単音声による文字入力システム。
  3. 請求項1または2のいずれかに記載の発明において、
    前記のサーバーにはさらに、前記の音声認識手段により認識された単音、または単音が複数連なった複数音を、文字入力候補として一時記憶する文字入力候補記憶手段と、
    ユーザー端末から送信された入力信号に従い、文字入力候補を確定する文字入力確定手段とが備えられたことを特徴とする、単音声による文字入力システム。
  4. 請求項1〜3のいずれかに記載の発明において、
    ユーザー端末から送信される文字入力候補を確定するための入力信号は、ユーザー端末において入力される指示入力信号であることを特徴とする、単音声による文字入力システム。
  5. 請求項4に記載の発明において、
    ユーザー端末から送信される文字入力候補を確定するための入力信号は、ユーザー端末において機能キーを用いて入力される指示入力信号であることを特徴とする、単音声による文字入力システム。
  6. 請求項1〜5のいずれかに記載の発明において、
    前記の単音声データ受領手段は、ユーザー端末において音声入力された音声データを単音ごとに音声パターンデータとして受領するものであり、
    サーバーが備える前記の音声認識手段は、ユーザー端末から送信された単音声データごとに、音声パターンデータとして記憶された単音声辞書データを参照して音声認識を行うものであることを特徴とする、単音声による文字入力システム。
  7. 請求項6に記載の発明において、
    前記の音声認識手段は、ユーザー端末において入力され分析された単音データの特徴パラメータの整合特点数により認識結果を決定することを特徴とする、単音声による文字入力システム。
  8. 請求項2〜7のいずれかに記載の発明において、
    ユーザー端末には、単音声入力機能と、単音声分析機能と、単音声データ送信機能とを少なくとも備え、サーバーと連携して機能する単音声入力プログラムが備えられたことを特徴とする、単音声による文字入力システム。
  9. 請求項1〜8のいずれかに記載の発明において、
    単音声による文字入力は、入力結果を受領するアプリケーションプログラムをユーザー端末において指定可能にされたことを特徴とする、単音声による文字入力システム。
JP2003283199A 2003-07-30 2003-07-30 単音声による文字入力システム Pending JP2005049713A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003283199A JP2005049713A (ja) 2003-07-30 2003-07-30 単音声による文字入力システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003283199A JP2005049713A (ja) 2003-07-30 2003-07-30 単音声による文字入力システム

Publications (1)

Publication Number Publication Date
JP2005049713A true JP2005049713A (ja) 2005-02-24

Family

ID=34268155

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003283199A Pending JP2005049713A (ja) 2003-07-30 2003-07-30 単音声による文字入力システム

Country Status (1)

Country Link
JP (1) JP2005049713A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010217628A (ja) * 2009-03-18 2010-09-30 Kddi Corp 音声によってテキストを入力する音声認識処理方法及びシステム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010217628A (ja) * 2009-03-18 2010-09-30 Kddi Corp 音声によってテキストを入力する音声認識処理方法及びシステム

Similar Documents

Publication Publication Date Title
JP5247062B2 (ja) ボイスメッセージのテキスト表示を通信装置へ提供する方法及びシステム
CN1655235B (zh) 基于话音特征自动标识电话呼叫者
Cox et al. Speech and language processing for next-millennium communications services
US8510103B2 (en) System and method for voice recognition
EP1047046B1 (en) Distributed architecture for training a speech recognition system
US6910012B2 (en) Method and system for speech recognition using phonetically similar word alternatives
US20100217591A1 (en) Vowel recognition system and method in speech to text applictions
US20080126093A1 (en) Method, Apparatus and Computer Program Product for Providing a Language Based Interactive Multimedia System
JP2010055044A (ja) 音声認識結果訂正装置および音声認識結果訂正方法、ならびに音声認識結果訂正システム
CN110149805A (zh) 双向语音翻译系统、双向语音翻译方法和程序
WO2001099096A1 (fr) Systeme de communication a entree vocale, terminal d'utilisateur et systeme central
US6990445B2 (en) System and method for speech recognition and transcription
WO2004036939A1 (fr) Appareil de communication mobile numerique portable, procede de commande vocale et systeme
JP2003140691A (ja) 音声認識装置
TW200304638A (en) Network-accessible speaker-dependent voice models of multiple persons
CN115249480A (zh) 基于北斗短报文的语音文字的转换方法及相关装置
JP6233867B2 (ja) 音声認識用辞書登録システム、音声認識システム、音声認識サービスシステム、方法およびプログラム
JP5238395B2 (ja) 言語モデル作成装置および言語モデル作成方法
JP4230142B2 (ja) 悪環境下でのキーパッド/音声を用いたハイブリッドな東洋文字認識技術
JP2001209644A (ja) 情報処理装置および情報処理方法、並びに記録媒体
JP2005049713A (ja) 単音声による文字入力システム
JP2015099290A (ja) 発話内重要語抽出装置とその装置を用いた発話内重要語抽出システムと、それらの方法とプログラム
JP3531342B2 (ja) 音声処理装置および音声処理方法
JP2011039468A (ja) 電子辞書で音声認識を用いた単語探索装置及びその方法
JP2000056796A (ja) 音声入力装置および方法