JP2005049713A

JP2005049713A - 単音声による文字入力システム

Info

Publication number: JP2005049713A
Application number: JP2003283199A
Authority: JP
Inventors: Hitoshi Kimura; 仁志木村
Original assignee: Individual
Current assignee: Individual
Priority date: 2003-07-30
Filing date: 2003-07-30
Publication date: 2005-02-24

Abstract

【課題】クライアントサーバ方式を利用した簡便な単音文字入力において、ユーザーごとの音声の特徴に対応し、認識率が高い簡便な入力システムの構築。
【解決手段】サーバーに、ユーザー情報記憶手段と、ユーザー端末から送信された、ユーザーが発生する単音ごとの音声データを受信して、ユーザーごとの単音声辞書データを作成し登録する単音声データ登録手段と、前記の単音声データ登録手段により登録された単音声辞書データをユーザーごとに記憶する単音声データ記憶手段と、ユーザー端末において音声入力され送信された音声データを単音ごとに分離して受領する単音声データ受領手段と、分離され受領された単音声データごとに、前記の単音声辞書データを参照して音声認識を行う音声認識手段とを備える。
【選択図】図１

Description

本発明は、単音声による文字入力システムに関する。

従来、文字入力の作業にはユーザーのキー入力装置ヘの操作が必要であった。
また携帯電話などの端末装置では、入力キーの数量が限られているために入力を行うことが困難である。
一方、文字入力を補助する方法として、音声入力・音声認識を行うための技術が様々に開発されている。

特開２００２−２６９０４７号公報

たとえば特開２００２−２６９０４７「音声ユーザ認証システム」においては、ユーザの利便性を損なわず、現実的に安全であり、サーバとネットワークの負荷が少ない携帯端末を使用する音声ユーザ認証システムが提案されている。
ユーザー認証においてユーザーの音声認識を行うものであるが、ユーザー認証に限定されているために、音声認識をする音声が限られており、５０音の単音すべてを認識するものではない。

特開２００２−１５７１１３号公報

特開２００２−１５７１１３「オンライン・インタラクティブ音声認識システムおよび音声認識方法」においては、インターネットを利用しているユーザが、遠隔サーバ・システムのデータベースから、オンライン・インタラクティブ音声認識システムにアクセスできる内容が開示されている。
クライアント・システムに音声認識エンジンをセットアップし、ユーザが、遠隔サーバ・システムから提供されたウェブ・ページ上で、語学レッスンまたはロール・プレイなどを選び、インタラクティブ音声認識システムおよびオンライン・データベースを交互に使用し、ウェブ・サイトで提供される学習コンテンツにアクセスし、インタラクティブ音声認識による会話練習を行うものである。
サーバーから指示された発音項目を受信して、クライアントにおいて音声認識エンジンに送り、受信した発音項目と前記音声データとの認識比較結果を取得し、表示するものであり、音声認識はクライアント端末のみにおいて行われるものである。サーバーは、発音をする項目の、比較対象となる音声データを記憶しているだけである。
特開平１１−３２７５９４号公報

ところで、音声認識に際しては、ユーザーごとに発音や、音声の大きさ、アクセントなどが異なるために、ユーザーごとの音声を、単音ごとに入力し登録しておくことが必要となる。
特開平１１−３２７５９４「音声合成辞書作成システム」においては、規則音声合成辞書作成システムにおいて、登録すべき話者の声質如何によらず、規則音声合成の音声辞書を自動的に作成するシステムが提案されている。
特定話者の音声を学習して特定話者音声辞書を作成する音声学習手段と、前記特定話者音声辞書を用い前記特定話者と同一話者の音声を音声合成用の合成単位毎に分けて切り出す合成単位切り出し手段と、その合成単位切り出し手段によって切り出された各合成単位の音声から、各合成単位の音声辞書を作成する、辞書作成手段を有するシステムである。
特定話者と同一話者の音声を音声合成用の合成単位毎に分けて切り出し辞書を作成するものであるが、音声認識はクライアント端末のみにおいて行われるものである。
特開平１１−６５５９０号公報

今日、インターネット普及や、インターネットにアクセス可能な携帯電話、各種の携帯情報端末の普及により、インターネットのクライアントサーバ方式を利用した簡便な単音文字入力の方法が求められている。
特開平１１−６５５９０「音声認識ダイアル装置」においては、携帯電話機等における氏名と電話番号登録操作、およびダイアル操作等のキー操作における煩雑さを低減する音声認識ダイアル装置が提案されており、日本人全氏名のデータベースを単音節コード単位であらかじめデータベースとしてＲＯＭ等に格納しておき、これと単音節単位で認識処理可能な不特定話者半音節音声認識器により、氏名および電話番号を単音節単位で離散発声した音声信号から自動登録させることによる音声登録機能と、登録された氏名および電話番号の単音節コードを認識対象とした不特定話者半音節音声認識器による認識処理により、音声ダイアルを行う機能とにより、キー操作を低減できるというものである。
ダイヤル操作を省くために音声認識を行うという、特定分野に関する内容であるが、音声認識による入力は様々なアプリケーションプログラムで利用可能にされることが求められており、本出願においては解決されていない。
また、単音節の登録は、ユーザーごとに行うわけではなく、ユーザーごとの音声の特徴には対応していない。
さらに、音声認識はサーバー側で受信したアナログ音声データにより行われるために、サーバーに送信されるデータ量が大きく、音声認識の実行には時間や負荷が大きい。
特開平１０−９７２７０号公報

特開平１０−９７２７０「音声認識装置」においては、タイプライタペナルティ値の設定やガーベジモデルの作成を必要とせず、未知語に対して頑健な音声認識方法を実現する装置が提案されており、音声認識をするための、単音節の登録が記載されている。単音節の登録は、ユーザーごとに行うわけではなく、ユーザーごとの音声の特徴には対応していない。
さらに、音声認識はクライアントサーバー間で行われるものではない。
特開平８−３３５０９３号公報

さらに特開平８−３３５０９３「音声認識方法およびこの方法を実施する装置」においては、単音節認識、複数音節認識を併用して単音節入力の効率を向上するための装置及び方法が提案されている。
単音節の音声およびこの単音節の音声をこれに対応する複数音節から成る音声により読み替えた音声を入力して音声認識し、認識結果を単音節に相当するラベル名により出力する音声認識方法において、単音節の音声を入力して得られる音声認識結果を複数音節の音声を入力して得られる音声認識結果により同定する音声認識方法である。
音声認識をするための、単音節の登録が記載されているが、単音節の登録は、ユーザーごとに行うわけではなく、ユーザーごとの音声の特徴には対応していない。
さらに、音声認識はクライアントサーバー間で行われるものではない。

本発明においては、上記の様々な課題を解決し、インターネットのクライアントサーバ方式を利用した簡便な単音文字入力において、ユーザーごとの音声の特徴に対応し、様々なアプリケーションプログラムで利用可能な音声入力・音声認識が可能なシステムを提供することを目的とする。
また本発明のシステムにおいては、送信されるデータはパターンデータとすることにより、送信されるデータ量を少なくし、音声認識の実行速度を向上させることを目的とする。
これにより認識率が高い、簡便な入力システムの構築を可能にするものである。

上記課題を解決するため、請求項１に記載の発明においては、
入力手段、制御手段、表示手段、出力手段、記憶手段等を備えるコンピュータ等のユーザー端末からインターネットに代表される通信手段を介してアクセスが行われるサーバーを少なくとも含み構成されるシステムであって、
前記のサーバーには、ユーザーごとに、少なくともユーザーを識別するユーザー情報と、ユーザーがアクセスするための認証情報とを記憶するユーザー情報記憶手段と、
ユーザー端末から送信された、ユーザーが発生する単音ごとの音声データを受信して、ユーザーごとの単音声辞書データを作成し登録する単音声データ登録手段と、
前記の単音声データ登録手段により登録された単音声辞書データをユーザーごとに記憶する単音声データ記憶手段と、
ユーザー端末において音声入力され送信された音声データを単音ごとに分離して受領する単音声データ受領手段と、
分離され受領された単音声データごとに、前記の単音声辞書データを参照して音声認識を行う音声認識手段とを少なくとも備えた、単音声による文字入力システムであることを特徴としている。

また、上記課題を解決するため、請求項２に記載の発明においては、
入力手段、制御手段、表示手段、出力手段、記憶手段等を備えるコンピュータ等のユーザー端末からインターネットに代表される通信手段を介してアクセスが行われるサーバーと、通信手段と、ユーザー端末と少なくともを含み構成されるシステムであって、
前記のサーバーには、ユーザーごとに、少なくともユーザーを識別するユーザー情報と、ユーザーがアクセスするための認証情報とを記憶するユーザー情報記憶手段と、
ユーザー端末から送信された、ユーザーが発生する単音ごとの音声データを受信して、ユーザーごとの単音声辞書データを作成し登録する単音声データ登録手段と、
前記の単音声データ登録手段により登録された単音声辞書データをユーザーごとに記憶する単音声データ記憶手段と、
ユーザー端末において音声入力され送信された音声データを単音ごとに分離して受領する単音声データ受領手段と、
分離され受領された単音声データごとに、前記の単音声辞書データを参照して音声認識を行う音声認識手段とを少なくとも備えた、単音声による文字入力システムであることを特徴としている。

また、上記課題を解決するため、請求項３に記載の発明においては、
請求項１または２のいずれかに記載の発明において、
前記のサーバーにはさらに、前記の音声認識手段により認識された単音、または単音が複数連なった複数音を、文字入力候補として一時記憶する文字入力候補記憶手段と、
ユーザー端末から送信された入力信号に従い、文字入力候補を確定する文字入力確定手段とが備えられた、単音声による文字入力システムであることを特徴としている。

また、上記課題を解決するため、請求項４に記載の発明においては、
請求項１〜３のいずれかに記載の発明において、
ユーザー端末から送信される文字入力候補を確定するための入力信号は、ユーザー端末において入力される指示入力信号である、単音声による文字入力システムであることを特徴としている。

また、上記課題を解決するため、請求項５に記載の発明においては、
請求項４に記載の発明において、
ユーザー端末から送信される文字入力候補を確定するための入力信号は、ユーザー端末において機能キーを用いて入力される指示入力信号である、単音声による文字入力システムであることを特徴としている。

また、上記課題を解決するため、請求項６に記載の発明においては、
請求項１〜５のいずれかに記載の発明において、
前記の単音声データ受領手段は、ユーザー端末において音声入力された音声データを単音ごとに音声パターンデータとして受領するものであり、
サーバーが備える前記の音声認識手段は、ユーザー端末から送信された単音声データごとに、音声パターンデータとして記憶された単音声辞書データを参照して音声認識を行うものである、単音声による文字入力システムであることを特徴としている。

また、上記課題を解決するため、請求項７に記載の発明においては、
請求項６に記載の発明において、
前記の音声認識手段は、ユーザー端末において入力され分析された単音データの特徴パラメータの整合特点数により認識結果を決定する、単音声による文字入力システムであることを特徴としている。

また、上記課題を解決するため、請求項８に記載の発明においては、
請求項２〜７のいずれかに記載の発明において、
ユーザー端末には、単音声入力機能と、単音声分析機能と、単音声データ送信機能とを少なくとも備え、サーバーと連携して機能する単音声入力プログラムが備えられた、単音声による文字入力システムであることを特徴としている。

また、上記課題を解決するため、請求項９に記載の発明においては、
請求項１〜８のいずれかに記載の発明において、
単音声による文字入力は、入力結果を受領するアプリケーションプログラムをユーザー端末において指定可能にされたことを特徴とする、単音声による文字入力システムであることを特徴としている。

本発明によれば、インターネットのクライアントサーバ方式を利用した簡便な単音文字入力において、ユーザーごとの音声の特徴に対応し、様々なアプリケーションプログラムで利用可能な音声入力・音声認識が可能なシステムを提供することができる。
また本発明のシステムによれば、送信されるデータはパターンデータとすることにより、送信されるデータ量を少なくし、音声認識の実行速度を向上させることができる。
これにより認識率が高い、簡便な入力システムの構築を可能にする。

以下、本発明の実施の形態について図面を参照して説明する。
図１は、本発明のシステムの基本的な構成の一例を示すシステム構成図である。

本発明のシステムは、クライアント側は音声認識の単位を音声（単語）ではなくて単音ごとの辞書データを利用し、さらに好ましくは単音をクライアント側で圧縮してパターン化したデータとしてサーバーに送信することにより登録し、あらかじめ登録してあるユーザーごとの単音パターンデータと、音声認識を行う単音ごとの音声データとを比べることにより入力する文字を認識し、サーバー側またはクライアント側において新式された文字を指定したアプリケーションに入力するシステムである。これにより認識率が高い、簡便な入力システムの構築が可能とするシステムである。

本発明のシステムは、入力手段、制御手段、表示手段、出力手段、記憶手段等を備えるコンピュータ等のユーザー端末からインターネットに代表される通信手段を介してアクセスが行われるサーバーを少なくとも含み構成されるシステムであって、通常の形態においてはサーバーと、通信手段と、ユーザー端末と少なくともを含み構成されるシステムである。

本発明のシステムを利用するためのユーザー端末としては、通常、パーソナルコンピュータやワークステーション、サーバー装置などのコンピュータ端末が用いられる。コンピュータ端末は、制御手段、記憶手段、入力手段、出力手段、表示手段などを備える。またインターネットに代表されるコンピュータネットワークに接続詞、データの送受信を行う機能を備え、ブラウザや電子メールソフトウェア、ワードプロセッサなどのアプリケーションプログラムや、オペレーティングシステム（ＯＳ）を備えることが通常の形態である。インターネットに連結できる単音入力手段と画面表示手段を持つすべての装置を利用することができる。

サーバーは、インターネットに代表されるネットワークに接続されて備えられ、ネットワークに接続する一般事業者端末からアクセスされる。ネットワークには、インターネットをはじめとして、専用線により接続されたネットワーク形態や、企業内ＬＡＮ、企業間ＬＡＮ、ＷＡＮなどの形態を広く含む。またここで用いられる通信回線の形態には、有線通信、無線通信の形態を広く含み、衛星通信や、Ｂｌｕｅｔｏｏｔｈなどを用いた形態を含む。
サーバーは、通常は、アプリケーションサーバー、データベースサーバー、認証サーバー、ＷＥＢサーバー、その他必要に応じメールサーバー、その他の各種装置により構成することができる。
これらの各サーバーは、物理的に同一の装置に設けられる形態や、物理的に複数の装置からなる形態、あるいはネットワークを介して接続される物理的に複数の装置からなる形態などを含み、機能的に同様の機能が実現されるならば、様々な形態を含む。

前記のサーバーには、ユーザーごとに、少なくともユーザーを識別するユーザー情報と、ユーザーがアクセスするための認証情報とを記憶するユーザー情報記憶手段を備えている。
ユーザー認証には様々な認証方法を利用することができるが、代表的な方式としては、ユーザー端末からユーザー登録を行い、ユーザーＩＤやパスワードなどが発行される形態が一般的には用いられる。
ユーザー情報記憶手段に記憶される情報としては、氏名、住所、電話番号、決済方法に関する情報、電子メールアドレスなどのユーザー情報と、ユーザーＩＤやパスワードなどの認証情報とが一例としてあげられる。
図２はユーザー情報記憶手段に記憶されるデータの一例を示す。

初めに、音声認識を行う前提として、ユーザーごとのサーバーへの単音声データの登録が必要である。
ユーザー端末には、単音声入力機能と、単音声分析機能と、単音声データ送信機能とを少なくとも備え、サーバーと連携して機能する単音声入力プログラムが備えられている。
図３は、単音声入力プログラムの一例を示すブロック図である。
単音声入力プログラムは、ユーザー端末において音声認識の単位を音声（単語）ではなくて単音ごとの辞書データとして入力し、好ましくは単音をクライアント側で圧縮してパターン化したデータとして変換し、ユーザーごとかつ単音ごとのパターンデータをサーバーに送信し登録する機能を備える。

ユーザー端末において、マイク等の音声入力手段を用いてユーザーが音声を入力する。
ユーザーＩＤ等で識別されるユーザーごとに、単音ごとに入力した場合には単音ごとの音声アナログ信号をＡＤ変換したＰＣＭ信号、複数音を入力した場合には音声アナログ信号をＡＤ変換したＰＣＭ信号を解析して単音ごとに分割したＰＣＭ信号等の単音データの特徴パラメータ分析をする。
ここでは音声認識パターンとしてHHM（hidden markov mode）を利用した単音認識システムのガウシアンを用いる。HMM(hidden markov
model)は、確立オートマンの1種で単音の特徴パラメータの時間的変化と確率的な変動を統計的に扱う手法。最近の単音認識で最もよく用いられる手法となっているものである。
つまり単音入力システムのガウス分布（平均値と共分散で特徴づけられる楕円形分布）の要素であるガウシアン（gaussian）の整合（matching）得点数を計算する。整合得点数列（matching score real array）は、単音データをデータベースの標準パターン（データベースの音素HMM）と比較した得点（score）列である。

ユーザー端末において求められた単音ごとの整合得点数列のデータは、サーバーに送信される。
サーバーにおいては、ユーザー端末から送信されたユーザーが発生する単音ごとの音声データを受信して、ユーザーごとの単音声辞書データを作成し登録する単音声データ登録手段を備えている。
単音声データ登録手段は、ユーザー認証により識別されたユーザーごとに、単音声辞書データを作成するが、単音声辞書データは、ユーザー端末から送信された単音声ごとに、すべての単音声ごとの整合得点数列のデータを後述する単音声データ記憶手段に登録する。

前記の単音声データ登録手段により登録された単音声辞書データをユーザーごとに記憶する単音声データ記憶手段を備えている。
単音入力において登録する単音は、日本語の場合には下記の５０音表に含まれる各文字である。
「あいうえおかきくけこさしすせそたちつてとなにぬねのはひふへほまみむめもやゆよらりるれろわをんがぎぐげござじずぜぞだぢずでどぱぴぷぺぽ」
また、音声認識の際に後述する小字キーや長音キーを用いて、音声認識による文字入力をすることができるが、前記の５０音表の文字以外にも、たとえば「ヴァ」「ウィ」などの文字が認識結果として出力されるように、単音登録しておくようにすることもできる。

次に、あらかじめ登録されているユーザーごとの単音声データに基づき、ユーザーが音声認識処理を実行させるための構成について説明する。
サーバーは、ユーザー端末において音声入力され送信された音声データを単音ごとに受領する単音声データ受領手段を備えている。
単音声データ受領手段は、ユーザー端末において音声入力された音声データを単音ごとに音声パターンデータとして受領するものである。
ユーザー端末には前記の通り、単音声入力プログラムが備えられており、単音声入力機能と、単音声分析機能と、単音声データ送信機能とを少なくとも備え、サーバーと連携して機能する。
音声認識を実行する際には、ユーザー端末において、マイクなどの音声入力装置により音声認識させたい音声を入力するが、単音ごとに入力した場合には単音ごとの音声アナログ信号をＡＤ変換したＰＣＭ信号、複数音を入力した場合には音声アナログ信号をＡＤ変換したＰＣＭ信号を解析して単音ごとに分割したＰＣＭ信号等の単音データの特徴パラメータ分析をする。

また、単音声による音声認識の結果、決定される文字入力は、ユーザー端末において起動しデータ入力を行うアプリケーションプログラム、またはサーバーに備えられるウェブ・アプリケーションプログラムなどのプログラムにおいて利用することができ、入力結果を受領するアプリケーションプログラムをユーザー端末において指定可能にされている。

ユーザー端末において求められた、音声認識をさせるために入力された音声の、単音ごとの整合得点数列のデータは、サーバーに送信される。
次にサーバーは、受領された単音声データごとに、前記の単音声辞書データを参照して音声認識を行う音声認識手段を備えている。音声認識手段は、ユーザー端末から送信された単音声データごとに、音声パターンデータとして記憶された単音声辞書データを参照して音声認識を行うものである。
音声認識手段は、音声認識の実行の際に、ユーザー端末において入力され分析された単音データの特徴パラメータの整合特点数により認識結果を決定する。
サーバーにおいて、単音声データ受領手段はクライアントから整合得点数列を受信し、音声認識手段が、仮説探索し認識を実行する。仮説検索（hypothesis search）は、単音データが入力される時そのデータがある単音であるという仮説をいくつかたて各仮説に対する条件付確立を計算し1番高い確率値をもつ仮説にたいする単音を認識結果と認める統計的手法である。
音声認識手段は、認識した結果を文字情報としてユーザー端末に送信する。
ユーザー端末においては、サーバーから認識された結果を受信し、対応するキーボード入力事象を発生させて目的のアプリケーションに文字が入力される。

また、好ましい実施形態によれば、サーバーにはさらに、前記の音声認識手段により認識された単音、または単音が複数連なった複数音を、文字入力候補として一時記憶する文字入力候補記憶手段と、ユーザー端末から送信された入力信号に従い、文字入力候補を確定する文字入力確定手段とが備えられている。

認識結果は、近いものから第１候補以外にも、次点以下の候補までユーザー端末に送信され、入力も次候補として表示等により出力される。認識結果として複数候補を用いることにより、認識確度が上がることになる。
入力候補の中から入力文字を確定するために、ユーザー端末から送信される確定指示の入力信号は、ユーザー端末において入力される指示入力信号である。
指示入力信号の一例としては、ユーザー端末において機能キーを用いて入力される指示入力信号である。機能キーとしては、認識結果の第１候補、第２候補、第３候補の中から選択・指定する「第二候補キー」のほか、あらかじめ登録された単音データにはない特殊文字などを入力するために、単音と組み合わせて入力を行う特殊キーを設定しておくことができる。特殊キーの一例は、入力された直前の文字を小字化する「小字キー」、長音を入力する「長音キー」などをキーボード等の入力手段のいずれかのキーに割り当てる。

特殊キーを用いた入力例の一例としては、「ば」「つ」「小字キー」「た」「長音キー」の入力により、「ばったー」の文字入力ができる例があげられる。また「ぢ」と発音したが認識結果として「じ」を得た場合に、第２候補以下の候補が出力され、第二候補キーを押して「ぢ」を入力する例があげられる。

なお、本発明のシステムを利用した文字入力において、すべての文字を音声入力する場合以外にも、通常のキー入力による文字入力と同時に併用して使えるようにすることが好ましい。
また、単音声データの登録と、あらかじめ登録された単音声データを利用した文字入力は、日本語かな入力以外にも、数字入力、アルファベット入力、記号入力などに利用することができる。

以下、本発明の基本的な処理の流れについて説明する。
図４、図５及び図６は、本発明の基本的な処理の流れの一例を示すフローチャートである。なお、ここに示す処理の流れは一例であって、これに限定されるものではなく、様々な応用や変形が可能である。

初めに図４を参照してユーザーの登録処理について説明する。
ユーザー端末からインターネットに接続し（Ｓ１００）、サーバーに接続（Ｓ１０１）する。あらかじめユーザー登録処理を行いユーザーＩＤやパスワードの発行を受け、ユーザー認証処理を行う（Ｓ１０２）。単音声データ登録処理を選択し（Ｓ１０３）、単音声データの登録を行う。また、単音声データの変更、追加などを随時行えることが好ましい。
本発明のシステムにおいて利用する単音声入力プログラムは、ダウンロード可能に備えられることが好ましく、サーバーから単音認識サービスのためのプログラム（サーバと連結，単音入力操作，単音分析データ送信，入力結果受信）をダウンロードして、ユーザー端末にインストールする。

ユーザー端末において単音声入力プログラムを起動し（Ｓ１０４）、マイクなどの音声入力手段を用いてユーザー端末において音声入力を行う（Ｓ１０５）。単音ごとに入力を行い登録するか、または複数音入力の場合には単音に分離する（Ｓ１０６）。単音声入力プログラムにおいて、入力する単音を間違えないように、５０音ごとに入力画面などを表示することが好ましい。

次いで単音声単音データ解析処理を行う（Ｓ１０７）。
単音声入力プログラムは、入力された単音データの特徴パラメータ分析をする。
ここでは音声認識パターンとしてHHM（hidden markov mode）を利用した単音認識システムのガウシアンを用いる。つまり単音入力システムのガウシアン（gaussian:*2参照）の整合（matching:*3参照）得点数を計算する。

単音ごとの整合得点数列をサーバーに送信する（Ｓ１０８）。
本発明のシステムによれば、送信されるデータはパターンデータであるために、送信されるデータ量が少なく、音声認識の実行速度が向上する。
たとえば、8khzの単音データを送信するとき、１秒分のデータ量は、
8000 * size of
(short)=16000(バイト/sec)=15.625(kbps)
である。
これに対し、送信されるデータはパターンデータであるために、単音データを分析した後でパターン（ガウシアン）整合得点数列を送る場合には、各フレームに対して２番高い２つのパラメータだけを送信する時、１秒分の単音データは一般的に１００個のフレームで分析できるので、１秒分の送信データは
[パターンID +パターンパラメータ]*100
= [size of(char)*2 +size
of(int)*2] *100 = ( 2 + 8 ) * 100 = 1000(byte/sec) = 0.976 (kbps)
である。
一つの１番高いパラメータだけを送信する場合には0.06kbpsである。
サーバーにおいては、単音声データ記憶手段（音響模型データベース、音量模型データベース、単音データベース等）に受信した単音声データを記憶する（Ｓ１０９）。ユーザーは、自分の単音情報（音響模型データベース，音量模型データベース，単音データベース）をサーバに登録する。

次に図５および図６を参照してユーザーの音声認識処理について説明する。
ユーザー端末からインターネットに接続し（Ｓ２００）、サーバーに接続し（Ｓ２０１）、ユーザー認証処理を経る（Ｓ２０２）。
音声認識処理を選択し（Ｓ２０３）、音声入力を行うアプリケーションプログラムを指定する（Ｓ２０４）。
単音声入力プログラムを起動して（Ｓ２０５）、ユーザー端末において音声入力を行う（Ｓ２０６）。単音ごとに入力を行い登録するか、または複数音入力の場合には単音に分離し（Ｓ２０７）、単音データ解析処理を行う（Ｓ２０８）。
音声入力をした単音ごとの整合得点数列をサーバーに送信し（Ｓ２０９）、サーバーにおいて単音声データ受領手段が受領し、音声認識手段がユーザーの単音声データ記憶手段を参照する（Ｓ２１０）。
整合得点数列に基づき仮説探索を行い音声認識を実行し（Ｓ２１１）、音声認識結果をユーザー端末に送信する（Ｓ２１２）。ユーザー端末において音声認識結果を受信し、文字情報として表示などの出力を行うが（Ｓ２１３）、複数の認識候補がある場合にはこれらを表示等により出力する。また機能キー、特殊キー等による入力と、入力文字の確定処理を必要に応じ行い、音声認識結果を確定する（Ｓ２１４）。
音声入力を行うアプリケーションプログラムが音声認識結果を受領し（Ｓ２１５）、対応するキーボード入力事象を発生させて目的のアプリケーションに文字が入力される。

以上詳細に説明したように、本発明によれば、インターネットのクライアントサーバ方式を利用した簡便な単音文字入力において、ユーザーごとの音声の特徴に対応し、様々なアプリケーションプログラムで利用可能な音声入力・音声認識が可能なシステムを提供することができる。
また本発明のシステムによれば、送信されるデータはパターンデータとすることにより、送信されるデータ量を少なくし、音声認識の実行速度を向上させることができる。
これにより認識率が高い、簡便な入力システムの構築を可能にする。

本発明のシステムの基本的な構成の一例を示すシステム構成図である。ユーザー情報記憶手段に記憶されるデータの一例を示す。単音声入力プログラムの一例を示すブロック図である。本発明の基本的な処理の流れの一例を示すフローチャートである。本発明の基本的な処理の流れの一例を示すフローチャートである。本発明の基本的な処理の流れの一例を示すフローチャートである。

Claims

入力手段、制御手段、表示手段、出力手段、記憶手段等を備えるコンピュータ等のユーザー端末からインターネットに代表される通信手段を介してアクセスが行われるサーバーを少なくとも含み構成されるシステムであって、
前記のサーバーには、ユーザーごとに、少なくともユーザーを識別するユーザー情報と、ユーザーがアクセスするための認証情報とを記憶するユーザー情報記憶手段と、
ユーザー端末から送信された、ユーザーが発生する単音ごとの音声データを受信して、ユーザーごとの単音声辞書データを作成し登録する単音声データ登録手段と、
前記の単音声データ登録手段により登録された単音声辞書データをユーザーごとに記憶する単音声データ記憶手段と、
ユーザー端末において音声入力され送信された音声データを単音ごとに分離して受領する単音声データ受領手段と、
分離され受領された単音声データごとに、前記の単音声辞書データを参照して音声認識を行う音声認識手段とを少なくとも備えたことを特徴とする、単音声による文字入力システム。
入力手段、制御手段、表示手段、出力手段、記憶手段等を備えるコンピュータ等のユーザー端末からインターネットに代表される通信手段を介してアクセスが行われるサーバーと、通信手段と、ユーザー端末と少なくともを含み構成されるシステムであって、
前記のサーバーには、ユーザーごとに、少なくともユーザーを識別するユーザー情報と、ユーザーがアクセスするための認証情報とを記憶するユーザー情報記憶手段と、
ユーザー端末から送信された、ユーザーが発生する単音ごとの音声データを受信して、ユーザーごとの単音声辞書データを作成し登録する単音声データ登録手段と、
前記の単音声データ登録手段により登録された単音声辞書データをユーザーごとに記憶する単音声データ記憶手段と、
ユーザー端末において音声入力され送信された音声データを単音ごとに分離して受領する単音声データ受領手段と、
分離され受領された単音声データごとに、前記の単音声辞書データを参照して音声認識を行う音声認識手段とを少なくとも備えたことを特徴とする、単音声による文字入力システム。
請求項１または２のいずれかに記載の発明において、
前記のサーバーにはさらに、前記の音声認識手段により認識された単音、または単音が複数連なった複数音を、文字入力候補として一時記憶する文字入力候補記憶手段と、
ユーザー端末から送信された入力信号に従い、文字入力候補を確定する文字入力確定手段とが備えられたことを特徴とする、単音声による文字入力システム。
請求項１〜３のいずれかに記載の発明において、
ユーザー端末から送信される文字入力候補を確定するための入力信号は、ユーザー端末において入力される指示入力信号であることを特徴とする、単音声による文字入力システム。
請求項４に記載の発明において、
ユーザー端末から送信される文字入力候補を確定するための入力信号は、ユーザー端末において機能キーを用いて入力される指示入力信号であることを特徴とする、単音声による文字入力システム。
請求項１〜５のいずれかに記載の発明において、
前記の単音声データ受領手段は、ユーザー端末において音声入力された音声データを単音ごとに音声パターンデータとして受領するものであり、
サーバーが備える前記の音声認識手段は、ユーザー端末から送信された単音声データごとに、音声パターンデータとして記憶された単音声辞書データを参照して音声認識を行うものであることを特徴とする、単音声による文字入力システム。
請求項６に記載の発明において、
前記の音声認識手段は、ユーザー端末において入力され分析された単音データの特徴パラメータの整合特点数により認識結果を決定することを特徴とする、単音声による文字入力システム。
請求項２〜７のいずれかに記載の発明において、
ユーザー端末には、単音声入力機能と、単音声分析機能と、単音声データ送信機能とを少なくとも備え、サーバーと連携して機能する単音声入力プログラムが備えられたことを特徴とする、単音声による文字入力システム。
請求項１〜８のいずれかに記載の発明において、
単音声による文字入力は、入力結果を受領するアプリケーションプログラムをユーザー端末において指定可能にされたことを特徴とする、単音声による文字入力システム。