JP2005070092A - ネットワークシステム、データ処理装置、方法、及びコンピュータ読み取り可能な記憶媒体 - Google Patents

ネットワークシステム、データ処理装置、方法、及びコンピュータ読み取り可能な記憶媒体 Download PDF

Info

Publication number
JP2005070092A
JP2005070092A JP2003208459A JP2003208459A JP2005070092A JP 2005070092 A JP2005070092 A JP 2005070092A JP 2003208459 A JP2003208459 A JP 2003208459A JP 2003208459 A JP2003208459 A JP 2003208459A JP 2005070092 A JP2005070092 A JP 2005070092A
Authority
JP
Japan
Prior art keywords
data
model data
speech recognition
recognition processing
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003208459A
Other languages
English (en)
Inventor
Yoshitoku Kawai
良徳 河合
Toshiaki Fukada
俊明 深田
Yasuhiro Komori
康弘 小森
Hiroki Yamamoto
寛樹 山本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2003208459A priority Critical patent/JP2005070092A/ja
Publication of JP2005070092A publication Critical patent/JP2005070092A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】音声認識処理の利用促進を図るとともに、音声認識処理に使用される多種多様な音響モデルデータや言語モデルデータを迅速かつ低コストで作成、提供等する。
【解決手段】データ送信コンピュータ101と、システム運用コンピュータ102と、音声認識プログラム実行コンピュータ103とがネットワーク104を介して接続しており、データ送信コンピュータ101からシステム運用コンピュータ102へは、音声認識処理に使用される音響モデルデータ(或いは言語モデルデータ)を作成するのに必要な音声データ(或いは文書データ)が送信され、システム運用コンピュータ102では、受信した音声データ(或いは文書データ)をもとに音響モデルデータ(或いは言語モデルデータ)を作成し、音声認識プログラム実行コンピュータ103からの要求に応じて配信する。
【選択図】 図1

Description

【0001】
【発明の属する技術分野】
本発明は、音声認識処理に使用される音響モデルデータや言語モデルデータの作成、提供等に利用されるネットワークシステム、データ処理装置、方法、及びコンピュータ読み取り可能な記憶媒体に関する。
【0002】
【従来の技術】
音声をテキスト等の文字データに変換する音声認識システムが存在する。これらのシステムでは、入力された任意の音声に対して、音響モデルや言語モデルにより決められた一定の規則に従い文字データを生成する。
【0003】
従来の音声認識システムにおいては、システム或いは製品ごとにあらかじめ固有の音響モデルや言語モデルがセットされており、使用者は購入したシステムに付属の音響モデルや言語モデルを用いて認識文を生成している。
【0004】
また、音響モデルにおいては、使用者自らの音声を多数収録し、収録した自分の音声をもとに自分に適した音響モデルを作成することで(エンロール作業)、音声認識性能の向上をねらったものもある。
【0005】
【特許文献1】
特開平9−258771号公報
【0006】
【発明が解決しようとする課題】
使用者側においては、使用状況、目的によって多種多様な文章を音声認識により入力することを必要としている。
【0007】
しかしながら、システムにバンドルされた音響モデルや言語モデルのみを用いた場合、使用者の要求する多種多様な音声認識を満たすことができないことがあった。
【0008】
また、音響モデルにおいてエンロール作業を行う場合でも、エンロール作業による話者適応は長時間を要することから、使用者の負担が大きく、また、突発的な使用ではエンロール作業を行うことができないため、使用者の要求する音声認識を満たすことができないことがあった。
【0009】
一方で、音響モデルや言語モデルの作成には、膨大な量のデータを収集する必要があり、手間とコストがかかるため、低コストで使用状況、目的に応じた多種多様な音響モデルや言語モデルを提供するのは困難であるといった欠点があった。
【0010】
本発明は上記のような実情に鑑みてなされたものであり、ネットワークを利用することにより、音声認識処理の利用促進を図るとともに、音声認識処理に使用される多種多様な音響モデルデータや言語モデルデータを迅速かつ低コストで作成、提供等できるようにすることを目的とする。
【0011】
【課題を解決するための手段】
本発明のネットワークシステムは、音声認識処理に使用されるモデルデータを作成するのに必要なデータを送信するデータ送信装置と、前記データ送信手段から受信した前記データをもとに前記モデルデータを作成するモデルデータ管理装置とがネットワークを介して接続する点に特徴を有する。
【0012】
また、本発明の他のネットワークシステムは、音声認識処理に使用されるモデルデータを作成し、送信するデータ送信装置と、前記データ送信手段から受信した前記モデルデータを格納するモデルデータ管理装置とがネットワークを介して接続する点に特徴を有する。
【0013】
また、本発明の他のネットワークシステムは、音声認識処理に使用されるモデルデータを配信するモデルデータ管理装置と、前記モデルデータ配信装置から受信した前記モデルデータを使用して音声認識処理を実行する音声認識処理実行装置とがネットワークを介して接続する点に特徴を有する。
【0014】
また、本発明の他のネットワークシステムは、音声認識処理に使用されるモデルデータを格納するとともに、前記モデルデータを使用して音声認識処理を実行するモデルデータ管理装置と、前記モデルデータ管理装置での前記音声認識処理の対象となる音声データを送信する送信端末とがネットワークを介して接続する点に特徴を有する。
【0015】
本発明のデータ処理装置は、音声認識処理に使用されるモデルデータを作成するのに必要なデータを外部から受信する受信手段と、前記受信手段により受信した前記データをもとに前記モデルデータを作成するモデル作成手段とを備えた点に特徴を有する。
【0016】
また、本発明の他のデータ処理装置は、音声認識処理に使用されるモデルデータを外部から受信する受信手段と、前記モデルデータを格納するモデルデータ格納手段とを備えた点に特徴を有する。
【0017】
また、本発明の他のデータ処理装置は、音声認識処理に使用されるモデルデータを格納するモデルデータ格納手段と、前記モデルデータを外部に配信するモデルデータ配信手段を備えた点に特徴を有する。
【0018】
また、本発明の他のデータ処理装置は、音声認識処理に使用されるモデルデータを格納するモデルデータ格納手段と、外部から音声認識処理の対象となる音声データを受信する受信手段と、前記受信手段により受信した前記音声データについて前記モデルデータを使用して音声認識処理を行う音声認識処理手段と、前記音声認識処理手段で行われた音声認識処理結果を配信する音声認識処理結果配信手段とを備えた点に特徴を有する。
【0019】
また、本発明の他のデータ処理装置は、音声認識処理に使用されるモデルデータを作成するのに必要なデータを格納する格納手段と、外部から入力された条件に応じて前記データをもとにオンデマンドで前記モデルデータを作成するモデル作成手段と、前記モデル作成手段により作成された前記モデルデータを外部に配信するモデルデータ配信手段とを備えた点に特徴を有する。
【0020】
本発明のデータ処理方法は、音声認識処理に使用されるモデルデータを作成するのに必要なデータを外部から受信する手順と、前記受信したデータをもとに前記モデルデータを作成する手順とを有する点に特徴を有する。
【0021】
また、本発明の他のデータ処理方法は、音声認識処理に使用されるモデルデータを外部から受信する手順と、前記モデルデータを格納する手順とを有する点に特徴を有する。
【0022】
また、本発明の他のデータ処理方法は、音声認識処理に使用されるモデルデータを格納する手順と、前記モデルデータを外部に配信する手順とを有する点に特徴を有する。
【0023】
また、本発明の他のデータ処理方法は、音声認識処理に使用されるモデルデータを格納する手順と、外部から音声認識処理の対象となる音声データを受信する手順と、前記受信した音声データについて前記モデルデータを使用して音声認識処理を行う手順と、前記音声認識処理結果を配信する手順とを有する点に特徴を有する。
【0024】
また、本発明の他のデータ処理方法は、音声認識処理に使用されるモデルデータを作成するのに必要なデータを格納する手順と、外部から入力された条件に応じて前記データをもとにオンデマンドで前記モデルデータを作成する手順と、前記作成された前記モデルデータを外部に配信する手順とを有する点に特徴を有する。
【0025】
本発明のコンピュータ読み取り可能な記憶媒体は、音声認識処理に使用されるモデルデータを作成するのに必要なデータを外部から受信する処理と、前記受信したデータをもとに前記モデルデータを作成する処理とを実行するプログラムを格納した点に特徴を有する。
【0026】
また、本発明の他のコンピュータ読み取り可能な記憶媒体は、音声認識処理に使用されるモデルデータを外部から受信する処理と、前記モデルデータを格納する処理とを実行するプログラムを格納した点に特徴を有する。
【0027】
また、本発明の他のコンピュータ読み取り可能な記憶媒体は、音声認識処理に使用されるモデルデータを格納する処理と、前記モデルデータを外部に配信する処理とを実行するプログラムを格納した点に特徴を有する。
【0028】
また、本発明の他のコンピュータ読み取り可能な記憶媒体は、音声認識処理に使用されるモデルデータを格納する処理と、外部から音声認識処理の対象となる音声データを受信する処理と、前記受信した音声データについて前記モデルデータを使用して音声認識処理を行う処理と、前記音声認識処理結果を配信する処理とを実行するプログラムを格納した点に特徴を有する。
【0029】
また、本発明の他のコンピュータ読み取り可能な記憶媒体は、音声認識処理に使用されるモデルデータを作成するのに必要なデータを格納する処理と、外部から入力された条件に応じて前記データをもとにオンデマンドで前記モデルデータを作成する処理と、前記作成された前記モデルデータを外部に配信する処理とを実行するプログラムを格納した点に特徴を有する。
【0030】
【発明の実施の形態】
以下、図面を参照して、本発明のネットワークシステム、データ処理装置、方法、及びコンピュータ読み取り可能な記憶媒体の実施の形態について説明する。
【0031】
(第1の実施の形態)
図1は、第1の実施の形態のシステム構成を示す図である。101はデータ送信コンピュータであり、音響モデルを作成するのに必要なデータをデータ提供者が送信するためのものである。なお、本実施の形態においては、このデータ送信コンピュータ101により、本発明でいうデータ送信装置の機能が実現されるものである。
【0032】
102はシステム運用コンピュータであり、データ送信コンピュータ101から送信されたデータを受信し、データを管理し、データから音響モデルデータを作成し、使用者に音響モデルデータを配信するためのものである。また、システム運用コンピュータ102は、音響モデルデータの配信を受けた使用者がシステム運用者に対して音響モデルデータの対価を支払い、また、システム運用者がデータ提供者に対して提供データの対価を支払うための支払管理も行う。なお、本実施の形態においては、このシステム運用コンピュータ102により、本発明でいうモデルデータ管理装置、データ処理装置の機能が実現されるものである。
【0033】
103は音声認識プログラム実行コンピュータであり、システム運用コンピュータ102から配信された音響モデルデータを受信して、音声認識プログラムにより音声認識処理を実行するためのものである。なお、本実施の形態においては、この音声認識プログラム実行コンピュータ103により、本発明でいう音声認識処理実行装置の機能が実現されるものである。
【0034】
104はネットワークであり、このネットワーク104を介して、データ送信コンピュータ101とシステム運用コンピュータ102と声認識プログラム実行コンピュータ103との間のデータ通信が行われる。以下に説明する実施の形態では、ネットワーク104としてインターネットを前提として説明するが、これに限定されるものではなく、任意の通信手段、例えば専用線を利用してもよい。
【0035】
本実施の形態では、大きく分けて、データ送信コンピュータ101とシステム運用コンピュータ102間での提供データの収集、システム運用コンピュータ102での音響モデル作成、システム運用コンピュータ102と音声認識プログラム実行コンピュータ103間の音響モデルデータの配信・受信といった3つ点に特徴を有する。
【0036】
(データ送信コンピュータ101とシステム運用コンピュータ102間での提供データの収集)
図2は、データ送信コンピュータ101が実現するデータ送信の機能構成を示すブロック図である。201は通信部であり、システム運用コンピュータ102との間で行われる通信を実現する。202はデータ送信部であり、音声データを送信する。203はデータ格納部であり、音声データを格納する。204は提供者情報送信部であり、提供者情報を送信する。205は提供者情報格納部であり、提供者情報を管理する。206はブラウザ部であり、送信に必要な情報等の表示を行う。
【0037】
データ格納部203に格納される音声データの作成方法は問わない。音声データとしては、提供者が発声した音声そのもののデータの他にも、発声内容を記した文書データ、発声話者に関する情報(性別、年齢、個人識別情報等)、音声データ収録条件の情報(マイクの種類、サンプリングレート等)、収録環境条件の情報(収録場所、ノイズデータ等)等を付加したものであってもかまわない。
【0038】
図3は、システム運用コンピュータ102が実現するデータ受信の機能構成を示すブロック図である。301は通信部であり、データ送信コンピュータ101との間で行われる通信を実現する。302はデータ受信部であり、提供者からの音声データを受信する。303はデータ確認部であり、受信したデータの確認を行う。304はデータ格納部であり、受信した音声データを格納する。305はデータ管理部であり、保存されたデータを一元管理する。データ確認部303では、受信した音声データのデータ量(発声単語数、発声時間等)を求め、不正なデータがないか等の提供データの信頼性を確認する。
【0039】
また、306は提供者情報受信部であり、提供者情報を受信する。308は対価情報格納部であり、提供データの対価情報を保持する。307はデータ対価管理部であり、データ確認部303から得られる受信データの情報、提供者情報受信部306から得られる提供者情報、対価情報格納部308から得られる対価情報をもとに受信データの対価を決める。309は決済処理部であり、対価の決済を行う。
【0040】
図4を参照して、データ送信コンピュータ101とシステム運用コンピュータ102間でなされる提供データの収集について説明する。データ提供者はデータ送信コンピュータ101を通じて、システム運用コンピュータ102にアクセスする(401)。インターネットを利用する場合、HTTP(Hypertext Transfer Protocol)によりシステム運用コンビュータ102ヘのアクセスが可能である。つまり、システム運用者は収集用のホームページを開設し、そこヘデータ提供者がアクセスすることにより、システム運用コンピュータ102にアクセスを行うことができる。
【0041】
システム運用コンピュータ102は、データ提供者からのアクセスに対して、データ提供者が送信する音声データに必要な情報(音声データの収録条件、話者条件、収録環境条件等)を入力したり、データ送信を行うのに必要な指示を行ったりするユーザインタフェースをデータ送信コンピュータ101のブラウザ部206に表示する(402)。インターネットを利用する場合、HTTPが利用可能である。なお、データ提供者が提供する音声データを収録する際に、収録条件、話者条件、収録環境条件等の情報を音声データに付加し、これら情報を含む形で音声データとして扱うことも考えられるが、この場合には、データ提供者による情報の入力作業を省くことが可能である。
【0042】
データ提供者はデータ送信コンピュータ101のブラウザ部206からの指示に従いデータ送信を行う。データ送信時には、データ格納部203に格納された音声データと、提供者情報格納部205に格納された提供者情報と、ブラウザ部206での入力により得られる情報とが、データ送信コンピュータ101を通じてシステム運用コンピュータ102に送信されることになる(403)。送信の際、データの機密保持等の観点から、適切な暗号方式を用いてデータの暗号化することが可能である。
【0043】
システム運用コンピュータ102は、データ提供者から送信された音声データをデータ受信部302で、提供者情報を提供者情報受信部306で受信する(404)。受信された音声データはデータ確認部303に渡され、その音声データのデータ量(発声単語数、発声時間等)が求められ、不正なデータがないか等の提供データの信頼性が確認された上で、データ格納部304に保存される。その際、データ管理部305では音声データの管理情報の追加を行うとともに、上記402でデータ提供者が入力、又は音声データに付加された提供データに関する情報(音声データの収録条件、話者条件、収録環境条件等)を用いて提供データを分類し、目的別に整理することも可能であり、これら情報をあわせて管理を行う。
【0044】
また、システム運用コンピュータ102は、データ確認部303で確認されたデータ量、提供者情報受信部306で受信された提供者情報、対価情報格納部308に格納されている提供データの対価情報という3つのデータをもとに、データ対価管理部307で提供者からの提供データの対価を決定する。そして、決済処理部309にて提供データの対価を提供者に支払う。決済処理部309は、電子決済、クレジットーカード、コンビニ決済、インターネット銀行等のインフラを使用して行うことが可能である。
【0045】
そして、システム運用コンピュータ102からデータ提供者に対価支払いの確認を行い、提供データの送受信は完了する。対価支払いの確認は電子メール等で送信することが可能であり、セキュリティのため暗号化して送ることも可能である。この処理は、決済処理部309にて行うことも可能であり、省略することもできる。
【0046】
なお、データ送信コンピュータ101とシステム運用コンピュータ102との間のデータ転送の方式は、2つのコンピュータ間で通信がなされるものであれば問わない。
【0047】
ここで、図5を参照して、上記402においてデータ送信コンピュータ101のブラウザ部206に表示されるユーザインタフェースについて説明する。ここでは、データ提供者が提供する音声データに関する情報(話者:性別・年齢・体格(身長、体重)等、収録環境:オフィス・屋外・携帯電話等、使用言語:日本語・英語・フランス語・中国語等)を入力させるようにしている。
【0048】
他にも、入力情報としては、発声内容を記した文書データ、音声データ収録条件の情報(マイクの種類、サンプリングレート等)等が考えられる。また、使用言語として、図5に示すような日本語・英語といった分類以外に、東北弁、関西弁といった情報を入力させるようにしてもよい。これら情報が提供データに付加されている場合は入力の必要はない。また、図5に示すように送信ボタン等を設定しておき、データ送信の実行を促すようにしている。
【0049】
(システム運用コンピュータ102での音響モデル作成)
図6は、システム運用コンピュータ102がデータを管理し、収集した音声データから音響モデルを作成する機能構成を示すブロック図である。601は音声データ格納部であり、受信した音声データを保持する。602は音響モデルデータ格納部であり、作成した音響モデルデータを保持する。603は中間情報データ格納部であり、音響モデルを作成する際に必要な中間情報データを保持する。
604はデータ管理部であり、データを一元管理する。605は音響モデル作成部であり、音声データ格納部601に保持された音声データから音響モデルデータを作成し、音響モデルデータ格納部602に保管する。
【0050】
音声データ格納部601、音響モデルデータ格納部602に格納された各データは、データ管理部604で一元管理され、音響モデル作成等の命令もデータ管理部604を通じて行われ、音響モデル作成で生成したデータに関する情報も、データ管理部604に受け渡し管理される。データ管理部604で管理された音声データに付随する音声データの収録条件・話者条件・収録環境条件等の情報を用いて提供データの分類され管理されているので、使用条件・目的に応じた多種多様な音響モデルを作成することが可能である。また、音響モデルを作成する際に必要な中間情報データは必ずしも保持しておく必要はなく、中間情報データ格納部603は省略することができる。
【0051】
(システム運用コンピュータ102と音声認識プログラム実行コンピュータ103間の音響モデルデータの配信・受信)
図7は、システム運用コンピュータ102が実現するデータ配信の機能構成を示すブロック図である。701は通信部であり、音声認識プログラム実行コンピュータ103との間で行われる通信を実現する。702はユーザ要求受信部であり、使用者からの要求を受信する。703はカタログ送信部であり、提供する音響モデルデータのカタログ、対価の情報を使用者に送信する。704はカタログデータ格納部であり、提供可能な音響モデルのカタログを格納する。705は音響モデル対価情報格納部であり、音響モデルの対価情報を格納する。
【0052】
また、706は音響データ対価管理部であり、使用者の要求する音響モデルの対価とユーザ情報とを管理する。707は決済処理部であり、対価の決済を行う。708はデータ管理部であり、提供する音響モデルデータ等を一元管理する。
709は音響モデルデータ格納部であり、提供する音響モデルデータを格納する。710は音響モデル配信部であり、使用者が要求した音響モデルデータを配信する。
【0053】
図8は、音声認識プログラム実行コンピュータ103が実現するデータ受信と音声認識の機能構成を示すブロック図である。801は通信部であり、システム運用コンピュータ102との間で行われる通信を実現する。802はユーザ要求送信部であり、使用者から必要な音響モデルデータ等の要求をシステム運用コンピュータ102に送信する。803はデータ受信部であり、システム運用コンピュータ102から配信された音響モデルデータを受信する。
【0054】
また、804は音声認識プログラム格納部であり、音声認識プログラムを格納する。805は音響モデルデータ格納部であり、受信した音響モデルデータを格納する。806は音声認識処理部であり、音声認識プログラム格納部804に格納された音声認識プログラムと音響モデルデータ格納部805に格納された音響モデルデータとを用いて音声認識処理を実行する。音響モデルデータ格納部805には複数の音響モデルデータを格納しておき、使用状況に応じて音響モデルデータを選択して使用することが可能である。807はブラウザ部であり、システム運用コンピュータ102から使用者に対して提供できる音響モデルデータとその価格等を提示する。
【0055】
図9を参照して、システム運用コンピュータ102と音声認識プログラム実行コンピュータ103間の音響モデルデータの配信・受信について説明する。使用者は音声認識プログラム実行コンピュータ103を通じて、システム運用コンピュータ102にアクセスする(901)。インターネットを利用する場合、HTTPによりシステム運用コンビュータ102ヘのアクセスが可能である。
【0056】
システム運用コンピュータ102は、提供する音響モデルデータのカタログを音声認識プログラム実行コンピュータ103のブラウザ部807を通じて表示することで使用者に掲示することができる(902)。インターネットを利用する場合にはHTTPが利用可能である。この際、使用者は必要としている音響モデルの話者条件や使用環境条件等を音声認識プログラム実行コンピュータ103を通じてシステム運用コンピュータ102に通知することにより、システム運用コンピュータ102は、使用者の要求に最適な音響モデルを提示し提供することが可能である。
【0057】
使用者は、必要とする音響モデルがあれば、音声認識プログラム実行コンピュータ103を通じてシステム運用コンピュータ102に音響モデルデータの配信を要求する(903)。
【0058】
システム運用コンピュータ102では、音響データ対価管理部706により決済処理部707を通じて音響モデルデータの対価を使用者から徴収する。決済処理部707は、電子決済、クレジットカード、コンビニ決済等の方法が可能である。決済処理部707により適切な決済がなされた後、データ管理部708を通じて使用者が必要とする音響モデルデータを選択し、音響モデル配信部710により音声認識プログラム実行コンピュータ103に配信する(904)。
【0059】
音声認識プログラム実行コンピュータ103に配信された音響モデルデータは、データ受信部803を通じて音響モデルデータ格納部805に格納される。
【0060】
さらに複数の音響モデルデータが必要な場合には、同様の手順で別の音響モデルデータを獲得すればよい。そして、使用者が音声認識を行う際に、音声認識プログラム格納部804に格納された音声認識プログラムと音響モデルデータ格納部805に格納された音響モデルデータとを用いて音声認識を行うことが可能である。
【0061】
また、決済と音響モデルデータの配信順序として、通常のシェアウェアと同様に、使用期限を付加した形で音響モデルデータを配信して、実際に使用者がその音響モデルデータを使用し、必要とする音響モデルデータであるかを確認した後、決済を行う方法も可能である。
【0062】
なお、システム運用コンピュータ102と音声認識プログラム実行コンピュータ103との間のデータ転送の方式は、2つのコンピュータ間で通信がなされるものであれば問わない。
【0063】
上記902において音声認識プログラム実行コンピュータ103のブラウザ部807を通じて提供する音響モデルデータの種類等を表示して、使用者は必要とする音響モデルを選択することができる。その際のユーザインタフェースについて図10を参照して説明する。ここでは、音響モデルに関する条件(使用話者条件:性別・年齢・体格等、使用環境:オフイス・屋外・携帯電話等、使用言語:日本語・英語・フランス語・中国語等)等を表示し、使用者が選択入力することにより、システム運用コンピュータ102に使用者が必要とする条件を伝えることができる。
【0064】
システム運用コンピュータ102は、入力条件に最適だと思われる音響モデルを選び、選択された音響モデルの価格も表示する。システム運用コンピュータ102のデータ管理部604が、あらかじめ作成され、音響モデルデータ格納部602に格納された音響モデルデータから条件に従って最適だと思われるものの選択を行う以外に、使用者の要求する条件を満たすように収集された音声データから音響モデルデータをオンデマンドで作成することで、使用者の要求を条件を満たす音響モデルデータを提供することができる。なお、図10に示すユーザインタフェースは一例であり、使用者が必要とする音響モデルを選択しやすいインタフェースを実現すればよい。
【0065】
なお、上記実施の形態におけるシステム運用コンピュータ102の提供データの受信工程において、データ確認部303で、データ管理部305と連携し、提供音声データと既に収集されデータ格納部304に格納されている音声データとの整合性を取ることにより、提供者が同一の音声データを複数回送信することを防ぐことができる。
【0066】
また、上記実施の形態におけるシステム運用コンピュータ102の提供データの受信工程において、あらかじめ提供者情報に提供者の音声の特徴を示す情報を付加しておき、データ確認部303で、その音声の特徴を示す情報を用いて、今回提供された提供音声データが提供者本人の発声した音声かどうかを確かめることができ、不正なデータの送信することを防ぐことができる。
【0067】
また、上記実施の形態においては、提供者の音声データの収録方法は制限されていないが、音声の収録機能をするプログラムをシステム運用者が提供し、そのプログラムで作成された音声データにオリジナル性を示す情報を付加し送信を行うようにすればよい。そして、システム運用コンピュータ102の受信工程において、データ確認部303で、そのオリジナル性を示す情報を判断し、データ確認することで、提供者が同一文章を複数回送信することを防ぐことが可能である。
【0068】
(第2の実施の形態)
上記第1の実施の形態では、データ提供者が提供するデータは音声データであることを前提にしているが、以下に述べる第2の実施の形態のように、データ送信コンピュータ101において音響モデルデータを作成し、それを送信することが可能であり、システム運用コンピュータ102においても音響モデルデータを受信することが可能である。図11、12には、第2の実施の形態のデータ提供コンピュータ101、システム運用コンピュータ102の機能構成を示す。
【0069】
図11において、1101は音声データ格納部であり、音声データを保持する。1102は音響モデルデータ格納部であり、作成した音響モデルデータを保持する。1103は音響モデルデータ作成部であり、音声データから音響モデルデータを作成する。1104はデータ送信部であり、提供するデータを送信する。
1105は提供者情報格納部であり、提供者情報を管理する。1106は提供者情報送信部であり、提供者情報を送信する。1107は通信部であり、システム運用コンピュータ102との間で行われる通信を実現する。
【0070】
図12において、1201は通信部であり、データ送信コンピュータ101との間で行われる通信を実現する。1202はデータ受信部であり、提供者からのデータを受信する。1203はデータ確認部(データチェック部)であり、受信したデータの確認を行う。1204はデータ管理部であり、保存されたデータを一元管理する。1205は音声データ格納部であり、受信した音声データを保持する。1206は音響モデルデータ格納部であり、受信した音響モデルデータを格納する。
【0071】
また、1207は提供者情報受信部であり、提供者情報を受信する。1208は対価情報格納部であり、提供データの対価情報を保持する。1209はデータ対価管理部であり、データ確認部1203から得られる受信データの情報、提供者情報受信部1207から得られる提供者情報、対価情報格納部1208から得られる対価情報をもとに受信データの対価を決める。1210は決済処理部(対価データ送信部)であり、対価の決済を行う。
【0072】
なお、データ送信コンピュータ101とシステム運用コンピュータ102間でなされる提供データの収集については第1の実施の形態における図4で説明したのと同様であり、ここではその詳細な説明は省略する。
【0073】
(第3の実施の形態)
上記第1の実施の形態では、インターネットを介してHTTPでデータ送信コンピュータ101からシステム運用コンピュータ102に直接提供データの送受信を行うことを前提にしているが、提供する音声データはネット電話でやり取りされる音声データをターゲットにすることもできる。システム運用コンピュータ102にネット電話を実現するための処理機能を備えることにより提供データをさらに効率的に収集することが可能である。図13、14には、第3の実施の形態のデータ提供コンピュータ101、システム運用コンピュータ102の機能構成を示す。
【0074】
図13において、1301はネット電話送受信部であり、ネット電話により入力された音声データの送受信を行う。1302は通信部であり、ネット電話サーバ機能を持つシステム運用コンピュータ102との間で行われる通信を実現する。
【0075】
図14において、1401は通信部であり、データ送信コンピュータ101との間で行われる通信を実現する。1402は音声データの送受信を行うネット電話サーバ機能を有するネット電話処理部、及びネット電話処理部で処理される音声データより提供者が提供を許可した音声データの振り分けを行う振り分け処理部である。1403は提供者情報格納部であり、提供者情報を保持する。1404はデータ受信部であり、提供を許可された音声データを受信する。なお、データ確認部1405、音声データ格納部1406、データ管理部1407、提供者情報受信部1408、データ対価管理部1409、対価情報格納部1410、決済処理部1411については、上記第1の実施の形態で図3で説明したものと同様である。
【0076】
図15は、データ送信コンピュータ101とシステム運用コンピュータ102間でなされる提供データの収集について説明する図である。データ提供者はデータ送信コンピュータ101を通じてネット電話を行い、まず通話時の音声データを提供データとしてシステム運用者に提供してよいかを決める(1501)。通話内容等によりシステム運用者に提供したくない場合、提供せず通常の電話と同様通話することも可能である。通話時の音声データを提供データとしてシステム運用者に提供してもよい場合、提供可であることを記す提供可情報を音声データに付加する(1502)。その後、通常のネット電話と同様の処理が行われ、システム運用コンピュータで提供されるネット電話サーバに音声データを送信する(1503)。
【0077】
システム運用コンピュータ102では、提供者から送信された音声データをネット電話処理部1402で処理し(1504)、提供可能な音声データかどうか判断する(1505)。提供可情報が付加された音声データであればシステム運用コンピュータ102の音声データをコピーして取込みを行う(1506)。そして、ネット電話処理部1402で通話先に音声が行われる。1506で取り込まれた音声データは、上記実施の形態における音声データと同様にシステム運用コンピュータ102で処理される。
【0078】
なお、上記実施の形態においては、システム運用者からデータ提供者に支払う提供データの対価として、通話料金の削減という形で対価を支払うことが可能である。
【0079】
また、上記実施の形態では、インターネットを介してやり取りされる音声データにはネット電話で用いられる音声データを前提にしたが、それ以外に、音声メール、音声チャット等で用いられる音声データを対象にすることも考えられる。
【0080】
(第4の実施の形態)
上記第1の実施の形態では、ネットワークを介してシステム運用コンピュータ102から音声認識プログラム実行コンピュータ103を介して使用者に提供されるのは音響モデルデータに限定して述べたが、音響モデルデータと同時に、音声認識プログラムを提供することも可能である。音声認識プログラムをネットワーク経由で提供することにより、使用者の使用する環境に応じて、認識速度優先版、認識精度優先版、省メモリ版、低スペック機版等の各種音声認識プログラムを使用者が選択することができる。音響モデルに加え、音声認識プログラムを使用者が選択可能になることで、より使用環境に応じた音声認識が行うことができる。
【0081】
図16は、音声認識プログラム配信機能を追加したシステム運用コンピュータ102が実現するデータ配信の機能構成を示すブロック図である。1601は通信部であり、システム運用コンピュータ102と音声認識プログラム実行コンピュータ103間で行われる通信を実現する。1602はユーザ要求受信部であり、使用者からの要求を受信する。1603はカタログ送信部であり、提供する音声認識プログラムのカタログ・対価の情報を使用者に送信する。1604はプログラムカタログ格納部であり、提供可能な音声認識プログラムのカタログを格納する。
【0082】
また、1605はプログラム対価情報格納部であり、音声認識プログラムの対価情報を格納する。1606はプログラム対価管理部であり、ユーザの要求する音声認識プログラムの対価とユーザ情報とを管理する。1607は決済処理部であり、対価の決済を行う。1608はプログラム配信部であり、提供する音声認識プログラムを配信する。1609は音声認識プログラム格納部であり、提供する音声認識プログラムを格納する。
【0083】
図17は、音声認識プログラム実行コンピュータ103が実現するデータ受信と音声認識の機能構成を示すブロック図である。1701は通信部であり、システム運用コンピュータ102と音声認識プログラム実行コンピュータ103間で行われる通信を実現する。1702はユーザ要求送信部であり、使用者から必要な音声認識プログラム・音響モデルデータの要求をシステム運用コンピュータ102に送信する。1703はデータ受信部であり、システム運用コンピュータ102から配信された音声認識プログラム・音響モデルデータを受信する。
【0084】
また、1704は音声認識プログラム格納部であり、受信した音声認識プログラムを格納する。1705は音響モデルデータ格納部であり、受信した音響モデルデータを格納する。1706は音声認識処理部であり、音声認識プログラム格納部1704に格納された音声認識プログラムと音響モデルデータ格納部1705に格納された音響モデルデータとを用いて音声認識を行う。音声認識プログラム格納部1704には複数の音声認識プログラムを格納しておき、使用状況に応じて音声認識プログラムを選択して使用することが可能である。1707はブラウザ部であり、システム運用コンピュータ102から使用者に対して提供できる音声認識プログラムとその価格等を提示する。
【0085】
(第5の実施の形態)
上記第1の実施の形態では、使用者は音声認識プログラム実行コンピュータ103において音声認識を行うことが前提であったが、音声認識プログラムをシステム運用コンピュータ102で用意しておき、使用者は、自己の端末から音声認識したい音声データをシステム運用コンピュータ102に送信し、システム運用コンピュータ102で音声認識を行い、使用者は認識結果のみ得ることも可能である。
【0086】
図18は、音声認識プログラムを実行するシステム運用コンピュータ102が実現する音声認識の機能構成を示したブロック図である。1801は通信部であり、システム運用コンピュータ102と後述する使用者の端末間で行われる通信を実現する。1802はユーザ要求受信部であり、使用者から必要な音響モデル・音声認識プログラム等の選択、音声認識を行う音声データを受信する。1803は音声認識処理部である。1804は音響モデルデータ格納部である。1805は音声認識プログラム格納部である。音声認識処理部1803では、音響モデルデータ格納部1804、音声認識プログラム格納部1805に格納された中から使用者の選択した音響モデル・音声認識プログラムを用いて音声認識を行う。
【0087】
また、1806は認識結果配信部であり、認識結果を使用者に送信する。1807は使用量計算部であり、音声認識処理部1803の使用回数・認識文字数等に応じて使用量の計算を行う。1808は使用量対価格納部である。1809は対価管理部であり、使用量対価格納部18082格納された使用量対価情報を参照して、使用者が使用した音声認識結果に見合う対価を決定する。1810は決済処理部である。
【0088】
図19は、使用者の端末の機能構成を示すブロック図である。1901は通信部であり、システム運用コンピュータ102と通信を実現する。1902のユーザ要求送信部である。1907はブラウザ部である。1903は音声データ処理部で、入力された音声を適切なデータに変換する。1904は音声データ送信部であり、音声データ処理部1903で変換されたデータをシステム運用コンピュータ102に送信する。送信するデータは音声データそのままでもよいし、音声データの特徴量でもよい。
【0089】
また、1905は認識結果受信部であり、システム運用コンピュータ102で音声認識された結果を受信する。1906は認識結果表示部であり、認識結果である認識文が表示される。
【0090】
なお、図19に示した使用者の端末としては、一般的なパーソナルコンピュータでもよいが、携帯電話等の携帯端末を使用できるようにしておけば、音声認識プログラムを実行するには能力が足りないモパイル環境においても有効的である。
【0091】
上記実施の形態では、システム運用コンピュータ102で音声認識を行うために使用者から送信された音声データを、音声認識に使用するだけでなく、音響モデルデータとして音響モデルデータ格納部1804に格納することも可能である。
【0092】
また、上記実施の形態のようにシステム運用コンピュータ102上に音声認識プログラムを用意することで、図20に示すように、音響モデルを選択する際に、いったん使用者が読み上げ文を発声しサンプル音声データを入力し、システム運用コンピュータ102上でそれぞれの音響モデルに対しての認識結果を計算し、音響モデルを用いたごとに認識率・認識速度・認識結果等を表示することで、使用者は提供された音響モデルの性能等を確認してから認識性能が要求を満たす音響モデルを選ぶことが可能である。これによって、使用者の要求する音響モデルの提供がさらに改善される。
【0093】
(第6の実施の形態)
音声認識プログラム実行コンピュータ103で音声認識を行うことにより認識結果の文章が得られるが、音声認識時に入力された音声データをいったん格納し、音声データとしてシステム運用コンピュータ102に提供することも可能である。この場合、音声認識プログラム実行コンピュータ103が、本発明でいうデータ送信装置としても機能することになる。
【0094】
図21は、音声認識プログラム実行コンピュータ103が実現する音声認識のために入力された音声データを送信する機能構成を示すブロック図である。2101は通信部であり、システム運用コンピュータ102との間で行われる通信を実現する。2102は音声認識処理部であり、音声認識を実際に行う。2103は音声認識プログラム格納部であり、音声認識に使用する音声認識プログラムを格納する。2104は音響モデルデータ格納部であり、音響モデルデータを格納する。
【0095】
2105は音声データ格納部であり、音声認識処理時に入力された音声データを格納する。2106はデータ送信部であり、上記音声データを提供データとしてシステム運用コンピュータ102に送信する。このとき、音声データに音声認識処理部2102から得られる認識結果の文書データ、収録環境情報等を付加することが望ましい。
【0096】
(第7の実施の形態)
上記第1の実施の形態では、データ提供者に対して提供データの対価として金銭を払うことを前提にしているが、他の方法で提供者に対して対価を払うことが可能であり、データ提供者が企業等である場合、使用者に対する広告を出すことにより対価とすることが考えられる。
【0097】
図22には、音声認識プログラム実行コンピュータ103が実現するデータ受信と音声認識の機能構成を示すブロック図である。音声認識処理部2206に広告表示部2208を備えることで、音声認識を行う際に広告表示を行うことができる。なお、通信部2201、ユーザ要求送信部2202、データ受信部2203、音声認識プログラム格納部2204、音響モデルデータ格納部2205、音声認識処理部2206、ブラウザ部2207については、第1の実施の形態の図8で説明したのと同様である。また、広告は、使用者が使用する音声認識プログラム実行コンピュータ103のブラウザ部2207に表示することが可能である。
【0098】
上記第1〜7の実施の形態では、音声データをもとに作成される「音響モデルデータ」について説明したが、以下に説明する第8〜15実施の形態では、文書データをもとに作成される「言語モデルデータ」について説明する。
【0099】
(第8の実施の形態)
第8の実施の形態のシステム構成は、図1に示すものと同様であり、データ送信コンピュータ101と、システム運用コンピュータ102と、音声認識プログラム実行コンピュータ103とがインターネット等のネットワーク104を介して接続する。
【0100】
本実施の形態でも、大きく分けて、データ送信コンピュータ101とシステム運用コンピュータ102間での提供データの収集、システム運用コンピュータ102での言語モデル作成、システム運用コンピュータ102と音声認識プログラム実行コンピュータ103間の言語モデルデータの配信・受信といった3つ特徴を有する。
【0101】
(データ送信コンピュータ101とシステム運用コンピュータ102間での提供データの収集)
データ送信コンピュータ101が実現するデータ送信の機能構成は図2に示すブロック図と同様であり、図2を参照して説明する。すなわち、データ送信コンピュータ101は、通信部201、データ送信部202、データ格納部203、提供者情報送信部204、提供者情報格納部205を備えている。ただし、第1の実施の形態で述べた音声データではなく、データ格納部203には文書データが格納され、データ送信部202からは文書データが送信される。
【0102】
また、システム運用コンピュータ102が実現するデータ受信の機能構成は図3に示すのと同様であり、図3を参照して説明する。すなわち、システム運用コンピュータ102は、通信部301、データ受信部302、データ確認部303、データ格納部304、データ管理部305、提供者情報受信部306、データ対価管理部307、対価情報格納部308、決済処理部309を備えている。ただし、第1の実施の形態で述べた音声データではなく、データ受信部302では文書データを受信し、データ確認部303では受信した文書データのデータ量(総文字数、総データ数、総単語数、総文数等)を確認し、データ格納部304では文書データを格納する。
【0103】
本実施の形態でも、図4を参照して、データ送信コンピュータ101とシステム運用コンピュータ102間でなされる提供データの収集について説明する。データ提供者はデータ送信コンピュータ101を通じて、システム運用コンピュータ102にアクセスする(401)。インターネットを利用する場合、HTTP(Hypertext Transfer Protocol)によりシステム運用コンビュータ102ヘのアクセスが可能である。つまり、システム運用者は収集用のホームページを開設し、そこヘデータ提供者がアクセスすることにより、システム運用コンピュータ102にアクセスを行うことができる。
【0104】
システム運用コンピュータ102は、データ提供者からのアクセスに対して、データ提供者がデータ送信に必要な情報(文書データのジャンル等)を入力したり、データ送信を行うのに必要な指示を行ったりするユーザインタフェースをデータ送信コンピュータ101のブラウザ部206に表示する(402)。インターネットを利用する場合、HTTPが利用可能である。
【0105】
データ提供者はブラウザ部206からの指示に従いデータ送信を行う。データ送信時には、データ格納部203に格納された文書データと、提供者情報格納部205に格納された提供者情報と、ブラウザ部206での入力により得られる情報とが、データ送信コンピュータ101を通じてシステム運用コンピュータ102に送信されることになる(403)。送信の際、データの機密保持等の観点から、適切な暗号方式を用いてデータの暗号化することが可能である。
【0106】
システム運用コンピュータ102は、データ提供者から送信された文書データをデータ受信部302で、提供者情報を提供者情報受信部306で受信する(404)。受信された文書データはデータ確認部303に渡され、その文書データのデータ量(総文字数、総データ数、総単語数、総文数等)が求められ、不正なデータがないか等の提供データの信頼性が確認された上で、データ格納部304に保存される。その際、データ管理部305では文書データの管理情報の追加を行うとともに、上記402で入力された提供データに関する情報(文書データのジャンル等)を用いて提供データを分類し、目的別に整理することも可能であり、これら情報をあわせて管理を行う。
【0107】
また、システム運用コンピュータ102は、データ確認部303で確認されたデータ量、提供者情報受信部306で受信された提供者情報、対価情報格納部308に格納されている提供データの対価情報という3つのデータをもとに、データ対価管理部307で提供者からの提供データの対価を決定する。そして、決済処理部309にて提供データの対価を提供者に支払う。決済処理部309は、電子決済、クレジットーカード、コンビニ決済、インターネット銀行等のインフラを使用して行うことが可能である。
【0108】
そして、システム運用コンピュータ102からデータ提供者に対価支払いの確認を行い、提供データの送受信は完了する。対価支払いの確認は電子メール等で送信することが可能であり、セキュリティのため暗号化して送ることも可能である。この処理は、決済処理部309にて行うことも可能であり、省略することもできる。
【0109】
なお、データ送信コンピュータ101とシステム運用コンピュータ102との間のデータ転送の方式は、2つのコンピュータ間で通信がなされるものであれば問わない。
【0110】
ここで、図23を参照して、上記402においてデータ送信コンピュータ101のブラウザ部206に表示されるユーザインタフェースについて説明する。ここでは、データ提供者が提供する文書データに関する情報(提供文書の言語:日本語・英語・フランス語・中国語等、提供文書のジャンル:日常会話・新聞記事・コギャル会話・ビジネス用語・政治経済・医療等)を入力させるようにしている。また、図23に示すように送信ボタン等を設定しておき、データ送信の実行を促すようにしている。
【0111】
(システム運用コンピュータ102での言語モデル作成)
図24は、システム運用コンピュータ102がデータを管理し、収集した文書データから言語モデルを作成する機能構成を示すブロック図である。2401は文書データ格納部であり、受信した文書データを保持する。2402は形態素解析データ格納部であり、作成した形態素解析データを保持する。2403は言語モデルデータ格納部であり、作成した言語モデルデータを保持する。2404はデータ管理部であり、データを一元管理する。
【0112】
また、2405は形態素解析部であり、文書データ格納部2401に保持された文書データに対して形態素解析を行い、形態素解析データを作成し、形態素解析データ格納部2402に保管する。2406は言語モデル作成部であり、形態素解析データ格納部2402に保持された形態素解析データから言語モデルデータを作成し、言語モデルデータ格納部2403に保管する。
【0113】
文書データ格納部2401、形態素解析データ格納部2402、言語モデルデータ格納部2403に格納された各データは、データ管理部2404で一元管理される。形態素解析、言語モデル作成等の命令もデータ管理部2404を通じて行われ、形態素解析、言語モデル作成で生成したデータに関する情報も、データ管理部2404に受け渡し管理される。データ管理部2404にて提供データの分類、目的・ジャンル別に管理されているので、目的・ジャンル別の言語モデルを作成することが可能である。
【0114】
(システム運用コンピュータ102と音声認識プログラム実行コンピュータ103間の言語モデルデータの配信・受信)
図25は、システム運用コンピュータ102が実現するデータ配信の機能構成を示すブロック図である。2501は通信部であり、音声認識プログラム実行コンピュータ103との間で行われる通信を実現する。2502はユーザ要求受信部であり、使用者からの要求を受信する。2503はカタログ送信部であり、提供する言語モデルデータのカタログ、対価の情報を使用者に送信する。2504はカタログデータ格納部であり、提供可能な言語モデルのカタログを格納する。
2505は言語モデル対価情報格納部であり、言語モデルの対価情報を格納する。
【0115】
また、2506は言語データ対価管理部であり、使用者の要求する言語モデルの対価とユーザ情報とを管理する。2507は決済処理部であり、対価の決済を行う。2508はデータ管理部であり、提供する言語モデルデータ等を一元管理する。2509は言語モデルデータ格納部であり、提供する言語モデルデータを格納する。2510は言語モデル配信部であり、使用者が要求した言語モデルデータを配信する。
【0116】
図26は、音声認識プログラム実行コンピュータ103が実現するデータ受信と音声認識の機能構成を示すブロック図である。2601は通信部であり、システム運用コンピュータ102との間で行われる通信を実現する。2602はユーザ要求送信部であり、使用者から必要な言語モデルデータ等の要求をシステム運用コンピュータ102に送信する。2603はデータ受信部であり、システム運用コンピュータ102から配信された言語モデルデータを受信する。
【0117】
また、2604は音声認識プログラム格納部であり、音声認識プログラムを格納する。2605は言語モデルデータ格納部であり、受信した言語モデルデータを格納する。2606は音声認識処理部であり、音声認識プログラム格納部2604に格納された音声認識プログラムと言語モデルデータ格納部2605に格納された音響モデルデータとを用いて音声認識処理を実行する。言語モデルデータ格納部2605には複数の言語モデルデータを格納しておき、使用状況に応じて言語モデルデータを選択して使用することが可能である。2607はブラウザ部であり、システム運用コンピュータ102から使用者に対して提供できる言語モデルデータとその価格等を提示する。
【0118】
本実施の形態でも、図9を参照して、システム運用コンピュータ102と音声認識プログラム実行コンピュータ103間の言語モデルデータの配信・受信について説明する。使用者は音声認識プログラム実行コンピュータ103を通じて、システム運用コンピュータ102にアクセスする(901)。インターネットを利用する場合、HTTPによりシステム運用コンビュータ102ヘのアクセスが可能である。
【0119】
システム運用コンピュータ102は、提供する言語モデルデータのカタログを音声認識プログラム実行コンピュータ103のブラウザ部2607を通じて表示することで使用者に掲示することができる(902)。インターネットを利用する場合にはHTTPが利用可能である。この際、使用者は必要としている言語モデルのジャンル等の条件を音声認識プログラム実行コンピュータ103を通じてシステム運用コンピュータ102に通知することにより、システム運用コンピュータ102は、使用者の要求に最適な言語モデルを提示し提供することが可能である。
【0120】
使用者は、必要とする言語モデルがあれば、音声認識プログラム実行コンピュータ103を通じてシステム運用コンピュータ102に言語モデルデータの配信を要求する(903)。
【0121】
システム運用コンピュータ102では、言語データ対価管理部2506により決済処理部2507を通じて言語モデルデータの対価を使用者から徴収する。決済処理部2507は、電子決済、クレジットカード、コンビニ決済等の方法が可能である。決済処理部2507により適切な決済がなされた後、データ管理部2508を通じて使用者が必要とする言語モデルデータを選択し、言語モデル配信部2510により音声認識プログラム実行コンピュータ103に配信する(904)。
【0122】
音声認識プログラム実行コンピュータ103に配信された言語モデルデータは、データ受信部2603を通じて言語モデルデータ格納部2605に格納される(904)。
【0123】
さらに複数の言語モデルデータが必要な場合には、同様の手順で別の言語モデルデータを獲得すればよい。そして、使用者が音声認識を行う際に、音声認識プログラム格納部2604に格納された音声認識プログラムと言語モデルデータ格納部2605に格納された言語モデルデータとを用いて音声認識を行うことが可能である。
【0124】
また、決済と言語モデルデータの配信順序として、通常のシェアウェアと同様に、使用期限を付加した形で言語モデルデータを配信して、実際に使用者がその言語モデルデータを使用し、必要とする言語モデルデータであるかを確認した後、決済を行う方法も可能である。
【0125】
なお、システム運用コンピュータ102と音声認識プログラム実行コンピュータ103との間のデータ転送の方式は、2つのコンピュータ間で通信がなされるものであれば問わない。
【0126】
上記902において音声認識プログラム実行コンピュータ103のブラウザ部2607を通じて提供する言語モデルデータの種類等を表示して、使用者は必要とする言語モデルを選択することができる。その際のユーザインタフェースについて図27を参照して説明する。図27(A)に示すように、言語モデルに関する条件(言語情報:日本語・英語・フランス語・中国語等、言語モデルのジャンル:日常会話・新聞記事・コギャル会話・ビジネス用語・政治経済・医療等)等を表示し、使用者が必要とする言語モデルを選択することが可能であり、システム運用コンピュータ102は条件を満たす言語モデルを選択して提供することができる。また、選択された言語モデルの価格も表示する。
【0127】
また、必要とする言語モデルが必ずしも一意に決まらない場合がある。その場合、図27(B)に示すように、言語モデルに関する条件(言語情報:日本語・英語・フランス語・中国語等、言語モデルのジャンル:日常会話・新聞記事・コギャル会話・ビジネス用語・政治経済・医療等)の割合を入力して要求することも可能である。
【0128】
システム運用コンピュータ102のデータ管理部2404が、あらかじめ作成され、言語モデルデータ格納部2403に格納された言語モデルデータから条件に従って最適だと思われるものの選択を行う以外に、使用者の要求する条件を満たすように収集された文書データから言語モデルデータをオンデマンドで作成することで、使用者の要求を条件を満たすブレンドされた言語モデルデータを提供することができる。なお、図27に示すユーザインタフェースは一例であり、使用者が必要とする音響モデルを選択しやすいインタフェースを実現すればよい。
【0129】
なお、上記実施の形態におけるシステム運用コンピュータ102の提供データの受信工程において、データ確認部303で、データ管理部305と連携し、提供文書データと既に収集されデータ格納部304に格納されている文書データとの整合性を取ることにより、提供者が同一の音声データを複数回送信することを防ぐことができる。
【0130】
また、上記実施の形態においては、提供者が提供する文書データの作成方法は制限されていないが、文書を作成するエディタやワープロ機能を有するプログラムをシステム運用者が提供し、そのプログラムで作成された文書データにオリジナル性を示す情報を付加し送信を行うようにすればよい。そして、システム運用コンピュータ102の受信工程において、データ確認部303で、そのオリジナル性を示す情報を判断し、データ確認することで、提供者が同一文章を複数回送信することを防ぐことが可能である。
【0131】
(第9の実施の形態)
上記第8の実施の形態では、データ提供者が提供するデータは文書データであることを前提にしているが、以下に述べる第9の実施の形態のように、データ送信コンピュータ101において言語モデルデータを作成し、それを送信することが可能であり、システム運用コンピュータ102においても言語モデルデータを受信することが可能である。図28、29には、第9の実施の形態のデータ提供コンピュータ101、システム運用コンピュータ102の機能構成を示す。
【0132】
図28において、2801は文書データ格納部であり、文書データを保持する。2802は形態素解析データ格納部であり、作成した形態素解析データを保持する。2803は言語モデルデータ格納部であり、作成した言語モデルデータを保持する。2804はデータ送信部であり、提供するデータを送信する。2805は形態素解析部であり、文書データから形態素解析データを作成する。2806は言語モデル作成部であり、形態素解析データから言語モデルデータを作成する。2807は通信部であり、システム運用コンピュータ102との間で行われる通信を実現する。2808は提供者情報格納部であり、提供者情報を管理する。2809は提供者情報送信部であり、提供者情報を送信する。
【0133】
図29において、2901は通信部であり、データ送信コンピュータ101との間で行われる通信を実現する。2902はデータ受信部であり、提供者からのデータを受信する。2903はデータ確認部(データチェック部)であり、受信したデータの確認を行う。2904はデータ管理部であり、保存されたデータを一元管理する。2905は文書データ格納部であり、受信した文書データを保持する。2906は形態素解析データ格納部であり、形態素解析データを格納する。2907は言語モデルデータ格納部であり、受信した言語モデルデータを格納する。
【0134】
また、2908は提供者情報受信部であり、提供者情報を受信する。2909は対価情報格納部であり、提供データの対価情報を保持する。2910はデータ対価管理部であり、データ確認部2903から得られる受信データの情報、提供者情報受信部2908から得られる提供者情報、対価情報格納部2909から得られる対価情報をもとに受信データの対価を決める。2911は決済処理部(対価データ送信部)であり、対価の決済を行う。
【0135】
なお、データ送信コンピュータ101とシステム運用コンピュータ102間でなされる提供データの収集については第8の実施の形態における図4で説明した通りであり、ここではその詳細な説明は省略する。
【0136】
(第10の実施の形態)
上記第8の実施の形態では、インターネットを介してHTTPでデータ送信コンピュータ101からシステム運用コンピュータ102に直接提供データの送受信を行うことを前提にしているが、提供する文書データは電子メールに書かれた文書データをターゲットにすることもできる。システム運用コンピュータ102にメールサーバ機能を備えることにより提供データをさらに効率的に収集することが可能である。図30、31には、第10の実施の形態のデータ提供コンピュータ101、システム運用コンピュータ102の機能構成を示す。
【0137】
図30において、3001は文書データ格納部であり、メール文書データを保持する。3002はメール送受信部であり、メールの送受信を行う。3003は通信部であり、メールサーバ機能を持つシステム運用コンピュータ102との間で行われる通信を実現する。
【0138】
図31において、3101は通信部であり、データ送信コンピュータ101との間で行われる通信を実現する。3102はメールの送受信を行うメールサーバ機能を有するメールサーバ処理部、3104は振り分け部であり、メールサーバ処理部3102に送られたメールより提供者が提供を許可したメールの振り分けを行う。3103は提供者情報格納部であり、提供者情報を保持する。3105はデータ受信部であり、提供を許可されたメールの文書データを受信する。なお、データ確認部3106、データ格納部3107、データ管理部3108、提供者情報受信部3109、データ対価管理部3110、対価情報格納部3111、決済処理部3112については、上記第8の実施の形態で図3で説明したものと同様である。
【0139】
図32は、データ送信コンピュータ101とシステム運用コンピュータ102間でなされる提供データの収集について説明する図である。データ提供者はデータ送信コンピュータ101を用いてメールを作成し、そのメールを提供データとしてシステム運用者に提供してよいかを決める(3201、3202)。メールの内容等によりシステム運用者に提供したくない場合、提供せず通常のメールと同様送信することも可能である。メールを提供データとしてシステム運用者に提供してもよい場合、提供可であることを記す提供可情報をメールに付加する(3203)。その後、通常のメールのように、SMTP(Simple Mail Transfer Protocol)等を用いてシステム運用コンピュータで提供されるメールサーバに送信する(3204)。
【0140】
システム運用コンピュータ102では、提供者から送信されたメールをメールサーバ処理部3102で処理し(3205)、提供可情報が付加されたメールかどうかを判断する(3206)。提供可情報が付加されたメールであればシステム運用コンピュータ102のメール文書をコピーして取込みを行う(3207)。そして、メールサーバ処理部3102でメールを送り先に送信する(3208)。3207で取り込まれたメール文書は、上記実施の形態における文書データと同様にシステム運用コンピュータ102で処理される。
【0141】
なお、上記実施の形態においては、システム運用者からデータ提供者に支払う提供データの対価として、無料メール機能提供という形で対価を支払うことが可能である。
【0142】
(第11の実施の形態)
上記第8の実施の形態では、インターネットを介してHTTPでデータ送信コンピュータ101からシステム運用コンピュータ102に直接提供データの送受信を行うことを前提にしているが、提供する文書データをHTML(hypertext markup language)文書として書かれた文書データをターゲットにすることもできる。システム運用コンピュータ102にWWWサーバ機能を備えることにより提供データをさらに効率的に収集することが可能である。図33、34には、第11の実施の形態のデータ提供コンピュータ101、システム運用コンピュータ102の機能構成を示す。
【0143】
図33において、3301はHTMLデータ格納部であり、HTMLデータを保持する。3302はWWW送受信部であり、HTMLのアップロードを行う。
3303は通信部であり、WWWサーバ機能を持つシステム運用コンピュータ102との間で行われる通信を実現する。この場合、使用者情報はサーバ側が保持する使用者情報から取得することができる。また、上記実施の形態でデータ提供者が入力した提供データに関する情報(ジャンル等)はHTMLデータのヘッダ等に記載することができる。
【0144】
図34において、3401は通信部であり、データ送信コンピュータ101との間で行われる通信を実現する。3402はWWWサーバ処理部であり、HTMLファイルのアップロード等を実現し、WWWを管理するWWWサーバ機能を有する。3403は提供者WWW格納部であり、提供者のHTMLデータを公開するWWWスペースを確保する。3404はHTMLデータ受信部であり、HTML文書データを受信する。3405はテキスト変換部であり、WWWサーバにアップロードされたHTML文書データをテキスト文書データに変換する。なお、データ確認部3406、データ格納部3407、データ管理部3408、提供者情報受信部3409、データ対価管理部3410、対価情報格納部3411、決済処理部3412については、上記第8の実施の形態で図3で説明したものと同様である。
【0145】
図35は、データ送信コンピュータ101とシステム運用コンピュータ102間でなされる提供データの収集について説明する図である。データ提供者はデータ送信コンピュータ101を用いてHTML文書データを作成し、通常のHTMLデータのようにFTP(File Transfer Protocol)等を用いてシステム運用コンピュータ102で提供されるWWWサーバにアップロードする(3501、3502)。
【0146】
システム運用コンピュータ102では、提供者から送信されたHTMLデータをWWWサーバ処理部3402で処理し(3503)、提供者WWW格納部3403に格納し公開する一方で(3504)、HTML文書データをコピーして取込みを行う(3505)。3505で取込まれたHTML文書データは、上記実施の形態における文書データと同様にシステム運用コンピュータ102で処理される。なお、WWWサーバ上におかれたHTMLデータは一般的に広く公開されるものであることから、WWWサーバにおかれたデータはすべて提供可として扱うものとしている。
【0147】
なお、上記実施の形態においては、システム運用者からデータ提供者に支払う提供データの対価として、無料WWWスペース提供という形で対価を支払うことが可能である。
【0148】
(第12の実施の形態)
言語モデルデータについての実施の形態においても、上述した音響モデルデータについての第4の実施の形態と同様に、システム運用コンピュータ102から、言語モデルデータと同時に音声認識プログラムを提供することが可能である。
音声認識プログラムをネットワーク経由で提供することにより、使用者の使用する環境に応じて、認識速度優先版、認識精度優先版、省メモリ版、低スペック機版等の各種音声認識プログラムを使用者が選択することができる。言語モデルに加え、音声認識プログラムを使用者が選択可能になることで、より使用環境に応じた音声認識が行うことができる。
【0149】
なお、音声認識プログラム配信機能を追加したシステム運用コンピュータ102が実現するデータ配信の機能、また、音声認識プログラム実行コンピュータ103が実現するデータ受信と音声認識の機能は、音響モデルデータではなく言語モデルデータを扱う点以外において図16、17で説明したのと同様であり、ここではその詳細な説明は省略する。
【0150】
(第13の実施の形態)
言語モデルデータについての実施の形態でも、上述した音響モデルデータについての第5の実施の形態と同様に、音声認識プログラムをシステム運用コンピュータ102で用意しておき、使用者は、自己の端末から音声認識したい音声データをシステム運用コンピュータ102に送信し、システム運用コンピュータ102で音声認識を行い、使用者は認識結果のみ得ることが可能である。
【0151】
なお、音声認識プログラムを実行するシステム運用コンピュータ102が実現する音声認識の機能、また、使用者の端末の機能は、音響モデルデータではなく言語モデルデータを扱う点以外において図18、19で説明したのと同様であり、ここではその詳細な説明は省略する。
【0152】
また、システム運用コンピュータ102上に音声認識プログラムを用意することで、図36に示すように、言語モデルを選択する際に、いったん使用者がサンプル音声データを入力し、システム運用コンピュータ102上でそれぞれの言語モデルに対しての認識結果を計算し、各言語モデルを用いた場合の認識結果を表示することで、使用者は提供された言語モデルの性能等を確認してから認識性能が要求を満たす言語モデルを選ぶことが可能である。これによって、使用者の要求する言語モデルの提供がさらに改善される。
【0153】
(第14の実施の形態)
言語モデルデータについての実施の形態では、音声認識プログラム実行コンピュータ103で音声認識を行うことにより認識結果の文章が得られるが、この認識結果をいったん格納し、文書データとしてシステム運用コンピュータ102に提供することも可能である。すなわち、上述した音響モデルデータについての第6の実施の形態では、音声認識時に入力された音声データをいったん格納し、音声データとしてシステム運用コンピュータ102に提供していたが、本実施の形態では、認識結果を文書としてシステム運用コンピュータ102に提供するものである。この場合、音声認識プログラム実行コンピュータ103が、本発明でいうデータ送信装置としても機能することになる。
【0154】
図37は、音声認識プログラム実行コンピュータ103が実現する音声認識の結果である文書データを送信する機能構成を示すブロック図である。3701は通信部であり、システム運用コンピュータ102との間で行われる通信を実現する。3702は音声認識処理部であり、音声認識を実際に行う。3703は音声認識プログラム格納部であり、音声認識に使用する音声認識プログラムを格納する。3704は言語モデルデータ格納部であり、言語モデルデータを格納する。
【0155】
3705は認識結果格納部であり、音声認識処理により認識された認識結果を格納する。3706はデータ送信部であり、上記認識結果である文書データを提供データとしてシステム運用コンピュータ102に送信する。
【0156】
(第15の実施の形態)
言語モデルデータについての実施の形態でも、上述した音響モデルデータについての第7の実施の形態と同様に、金銭を払う以外の方法で提供者に対して対価を払うことが可能であり、データ提供者が企業等である場合、広告を出すことにより対価とすることが考えられる。
【0157】
なお、音声認識プログラム実行コンピュータ103が実現するデータ受信と音声認識の機能は、音響モデルデータではなく言語モデルデータを扱う点以外において図22で説明したのと同様であり、ここではその詳細な説明は省略する。
【0158】
(その他の実施の形態)
上記第1〜7の実施の形態では、「音響モデルデータ」を使用するもの、上記第8〜15実施の形態では、「言語モデルデータ」を使用するものについて説明したが、その両者を扱うようにしてもかまわない。
【0159】
また、本発明は複数の機器から構成されるシステムに適用しても一つの機器からなる装置に適用してもよい。
【0160】
また、上述した実施の形態の機能を実現するべく各種のデバイスを動作させるように、該各種デバイスと接続された装置或いはシステム内のコンピュータに対し、上記実施の形態の機能を実現するためのソフトウェアのプログラムコードを供給し、そのシステム或いは装置のコンピュータ(CPU或いはMPU)に格納されたプログラムに従って上記各種デバイスを動作させることによって実施したものも、本発明の範疇に含まれる。
【0161】
また、この場合、上記ソフトウェアのプログラムコード自体が上述した実施の形態の機能を実現することになり、そのプログラムコード自体、及びそのプログラムコードをコンピュータに供給するための手段、例えばかかるプログラムコードを格納した記録媒体は本発明を構成する。かかるプログラムコードを記憶する記録媒体としては、例えばフレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、CD−ROM、磁気テープ、不揮発性のメモリカード、ROM等を用いることができる。
【0162】
また、コンピュータが供給されたプログラムコードを実行することにより、上述の実施の形態の機能が実現されるだけでなく、そのプログラムコードがコンピュータにおいて稼働しているOS(オペレーティングシステム)或いは他のアプリケーションソフト等と共同して上述の実施の形態の機能が実現される場合にもかかるプログラムコードは本発明の実施の形態に含まれることはいうまでもない。
【0163】
さらに、供給されたプログラムコードがコンピュータの機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに格納された後、そのプログラムコードの指示に基づいてその機能拡張ボードや機能拡張ユニットに備わるCPU等が実際の処理の一部又は全部を行い、その処理によって上述した実施の形態の機能が実現される場合にも本発明に含まれることはいうまでもない。
【0164】
なお、上記実施の形態において示した各部の形状及び構造は、何れも本発明を実施するにあたっての具体化のほんの一例を示したものに過ぎず、これらによって本発明の技術的範囲が限定的に解釈されてはならないものである。すなわち、本発明はその精神、又はその主要な特徴から逸脱することなく、様々な形で実施することができる。
【0165】
【発明の効果】
以上述べたように本発明によれば、ネットワークを利用することにより、音声認識処理の利用促進を図るとともに、音声認識処理に使用される多種多様な音響モデルデータや言語モデルデータを迅速かつ低コストで作成、提供等することが可能となる。
【図面の簡単な説明】
【図1】システム構成を示す図である。
【図2】第1の実施の形態においてデータ送信コンピュータ101が実現するデータ送信の機能構成を示すブロック図である。
【図3】第1の実施の形態においてシステム運用コンピュータ102が実現するデータ受信の機能構成を示すブロック図である。
【図4】第1の実施の形態においてデータ送信コンピュータ101とシステム運用コンピュータ102間でなされる提供データの収集について説明する図である。
【図5】データ送信コンピュータ101のブラウザ部206に表示されるユーザインタフェースの一例を示す図である。
【図6】第1の実施の形態においてシステム運用コンピュータ102がデータを管理し、収集した音声データから音響モデルを作成する機能構成を示すブロック図である。
【図7】第1の実施の形態においてシステム運用コンピュータ102が実現するデータ配信の機能構成を示すブロック図である。
【図8】第1の実施の形態において音声認識プログラム実行コンピュータ103が実現するデータ受信と音声認識の機能構成を示すブロック図である。
【図9】第1の実施の形態においてシステム運用コンピュータ102と音声認識プログラム実行コンピュータ103間の音響モデルデータの配信・受信について説明する図である。
【図10】データ送信コンピュータ101のブラウザ部206に表示されるユーザインタフェースの一例を示す図である。
【図11】第2の実施の形態においてデータ送信コンピュータ101が実現するデータ送信の機能構成を示すブロック図である。
【図12】第2の実施の形態においてシステム運用コンピュータ102が実現するデータ受信の機能構成を示すブロック図である。
【図13】第3の実施の形態においてデータ送信コンピュータ101が実現するデータ送信の機能構成を示すブロック図である。
【図14】第3の実施の形態においてシステム運用コンピュータ102が実現するデータ受信の機能構成を示すブロック図である。
【図15】第3の実施の形態においてデータ送信コンピュータ101とシステム運用コンピュータ102間でなされる提供データの収集について説明する図である。
【図16】第4の実施の形態において音声認識プログラム配信機能を追加したシステム運用コンピュータ102が実現するデータ配信の機能構成を示すブロック図である。
【図17】第4の実施の形態において音声認識プログラム実行コンピュータ103が実現するデータ受信と音声認識の機能構成を示すブロック図である。
【図18】第5の実施の形態において音声認識プログラムを実行するシステム運用コンピュータ102が実現する音声認識の機能構成を示したブロック図である。
【図19】第5の実施の形態において使用者の端末の機能構成を示すブロック図である。
【図20】使用者の端末に表示されるユーザインタフェースの一例を示す図である。
【図21】第6の実施の形態において音声認識プログラム実行コンピュータ103が実現する音声認識のために入力された音声データを送信する機能構成を示すブロック図である。
【図22】第7の実施の形態において音声認識プログラム実行コンピュータ103が実現するデータ受信と音声認識の機能構成を示すブロック図である。
【図23】データ送信コンピュータ101のブラウザ部206に表示されるユーザインタフェースの一例を示す図である。
【図24】第8の実施の形態においてシステム運用コンピュータ102がデータを管理し、収集した文書データから言語モデルを作成する機能構成を示すブロック図である。
【図25】第8の実施の形態においてシステム運用コンピュータ102が実現するデータ配信の機能構成を示すブロック図である。
【図26】第8の実施の形態において音声認識プログラム実行コンピュータ103が実現するデータ受信と音声認識の機能構成を示すブロック図である。
【図27】データ送信コンピュータ101のブラウザ部206に表示されるユーザインタフェースの一例を示す図である。
【図28】第9の実施の形態においてデータ送信コンピュータ101が実現するデータ送信の機能構成を示すブロック図である。
【図29】第9の実施の形態においてシステム運用コンピュータ102が実現するデータ受信の機能構成を示すブロック図である。
【図30】第10の実施の形態においてデータ送信コンピュータ101が実現するデータ送信の機能構成を示すブロック図である。
【図31】第10の実施の形態においてシステム運用コンピュータ102が実現するデータ受信の機能構成を示すブロック図である。
【図32】第10の実施の形態においてデータ送信コンピュータ101とシステム運用コンピュータ102間でなされる提供データの収集について説明する図である。
【図33】第11の実施の形態においてシステム運用コンピュータ102が実現するデータ受信の機能構成を示すブロック図である。
【図34】第11の実施の形態においてデータ送信コンピュータ101とシステム運用コンピュータ102間でなされる提供データの収集について説明する図である。
【図35】第11の実施の形態においてデータ送信コンピュータ101とシステム運用コンピュータ102間でなされる提供データの収集について説明する図である。
【図36】使用者の端末に表示されるユーザインタフェースの一例を示す図である。
【図37】第14の実施の形態において音声認識プログラム実行コンピュータ103が実現する音声認識の結果である文書データを送信する機能構成を示すブロック図である。
【符号の説明】
101 データ送信コンピュータ
102 システム運用コンピュータ
103 音声認識プログラム実行コンピュータ
104 ネットワーク
201 通信部
202 データ送信部
203 データ格納部
204 提供者情報送信部
205 提供者情報格納部
206 ブラウザ部
301 通信部
302 データ受信部
303 データ確認部
304 データ格納部
305 データ管理部
306 提供者情報受信部
307 データ対価管理部
308 対価情報格納部
309 決済処理部
601 音声データ格納部
602 音響モデルデータ
603 中間情報データ格納部
604 データ管理部
605 音響モデル作成部
701 通信部
702 ユーザ要求受信部
703 カタログ送信部
704 カタログデータ格納部
705 音響モデル対価情報格納部
706 音響データ対価管理部
707 決済処理部
708 データ管理部
709 音響モデルデータ格納部
710 音響モデル配信部
801 通信部
802 ユーザ要求送信部
803 データ受信部
804 音声認識プログラム格納部
805 音響モデルデータ格納部
806 音声認識処理部
807 ブラウザ部

Claims (33)

  1. 音声認識処理に使用されるモデルデータを作成するのに必要なデータを送信するデータ送信装置と、
    前記データ送信手段から受信した前記データをもとに前記モデルデータを作成するモデルデータ管理装置とがネットワークを介して接続することを特徴とするネットワークシステム。
  2. 音声認識処理に使用されるモデルデータを作成し、送信するデータ送信装置と、
    前記データ送信手段から受信した前記モデルデータを格納するモデルデータ管理装置とがネットワークを介して接続することを特徴とするネットワークシステム。
  3. 音声認識処理に使用されるモデルデータを配信するモデルデータ管理装置と、
    前記モデルデータ配信装置から受信した前記モデルデータを使用して音声認識処理を実行する音声認識処理実行装置とがネットワークを介して接続することを特徴とするネットワークシステム。
  4. 前記モデルデータ管理装置は、前記モデルデータを作成するのに必要なデータを格納しており、前記音声認識処理実行装置から入力された条件に応じてオンデマンドで前記モデルデータを作成して配信することを特徴とする請求項3に記載のネットワークシステム。
  5. 音声認識処理に使用されるモデルデータを格納するとともに、前記モデルデータを使用して音声認識処理を実行するモデルデータ管理装置と、
    前記モデルデータ管理装置での前記音声認識処理の対象となる音声データを送信する送信端末とがネットワークを介して接続することを特徴とするネットワークシステム。
  6. 音声認識処理に使用されるモデルデータを作成するのに必要なデータを外部から受信する受信手段と、
    前記受信手段により受信した前記データをもとに前記モデルデータを作成するモデル作成手段とを備えたことを特徴とするデータ処理装置。
  7. 前記データに関してデータ提供者に支払う対価を管理する対価管理手段を備えたことを特徴とする請求項6に記載のデータ処理装置。
  8. 前記モデルデータは音響モデルデータであり、前記データは音声データを含むことを特徴とする請求項6に記載のデータ処理装置。
  9. 前記音声データはネット電話で用いられたものであることを特徴とする請求項8に記載のデータ処理装置。
  10. 前記音声データは音声メールで用いられたものであることを特徴とする請求項8に記載のデータ処理装置。
  11. 前記音声データは音声チャットで用いられたものであることを特徴とする請求項8に記載のデータ処理装置。
  12. 前記モデルデータは言語モデルデータであり、前記データは文書データを含むことを特徴とする請求項6に記載のデータ処理装置。
  13. 前記文書データは電子メールとして書かれたものであることを特徴とする請求項12に記載のデータ処理装置。
  14. 前記文書データはHTMLデータとして書かれたものであることを特徴とする請求項12に記載のデータ処理装置。
  15. 前記受信手段により受信した前記データのデータ量を確認するデータ確認手段を備えたことを特徴とする請求項6に記載のデータ処理装置。
  16. 音声認識処理に使用されるモデルデータを外部から受信する受信手段と、
    前記モデルデータを格納するモデルデータ格納手段とを備えたことを特徴とするデータ処理装置。
  17. 音声認識処理に使用されるモデルデータを格納するモデルデータ格納手段と、
    前記モデルデータを外部に配信するモデルデータ配信手段を備えたことを特徴とするデータ処理装置。
  18. 前記モデルデータの配信に関してデータ使用者から徴収する対価を管理する対価管理手段を備えたことを特徴とする請求項17に記載のデータ処理装置。
  19. 前記モデルデータを使用して行う音声認識処理のためのプログラムを配信するプログラム配信手段を備えたことを特徴とする請求項17に記載のデータ処理装置。
  20. 前記音声認識処理のためのプログラムの配信に関してプログラム使用者から徴収する対価を管理する対価管理手段を備えたことを特徴とする請求項19に記載のデータ処理装置。
  21. 音声認識処理に使用されるモデルデータを格納するモデルデータ格納手段と、
    外部から音声認識処理の対象となる音声データを受信する受信手段と、
    前記受信手段により受信した前記音声データについて前記モデルデータを使用して音声認識処理を行う音声認識処理手段と、
    前記音声認識処理手段で行われた音声認識処理結果を配信する音声認識処理結果配信手段とを備えたことを特徴とするデータ処理装置。
  22. 前記音声認識処理の使用量を計測する使用量計測部を備えたことを特徴とする請求項21に記載のデータ処理装置。
  23. 音声認識処理に使用されるモデルデータを作成するのに必要なデータを格納する格納手段と、
    外部から入力された条件に応じて前記データをもとにオンデマンドで前記モデルデータを作成するモデル作成手段と、
    前記モデル作成手段により作成された前記モデルデータを外部に配信するモデルデータ配信手段とを備えたことを特徴とするデータ処理装置。
  24. 音声認識処理に使用されるモデルデータを作成するのに必要なデータを外部から受信する手順と、
    前記受信したデータをもとに前記モデルデータを作成する手順とを有することを特徴とするデータ処理方法。
  25. 音声認識処理に使用されるモデルデータを外部から受信する手順と、
    前記モデルデータを格納する手順とを有することを特徴とするデータ処理方法。
  26. 音声認識処理に使用されるモデルデータを格納する手順と、
    前記モデルデータを外部に配信する手順とを有することを特徴とするデータ処理方法。
  27. 音声認識処理に使用されるモデルデータを格納する手順と、
    外部から音声認識処理の対象となる音声データを受信する手順と、
    前記受信した音声データについて前記モデルデータを使用して音声認識処理を行う手順と、
    前記音声認識処理結果を配信する手順とを有することを特徴とするデータ処理方法。
  28. 音声認識処理に使用されるモデルデータを作成するのに必要なデータを格納する手順と、
    外部から入力された条件に応じて前記データをもとにオンデマンドで前記モデルデータを作成する手順と、
    前記作成された前記モデルデータを外部に配信する手順とを有することを特徴とするデータ処理方法。
  29. 音声認識処理に使用されるモデルデータを作成するのに必要なデータを外部から受信する処理と、
    前記受信したデータをもとに前記モデルデータを作成する処理とを実行するプログラムを格納したことを特徴とするコンピュータ読み取り可能な記憶媒体。
  30. 音声認識処理に使用されるモデルデータを外部から受信する処理と、
    前記モデルデータを格納する処理とを実行するプログラムを格納したことを特徴とするコンピュータ読み取り可能な記憶媒体。
  31. 音声認識処理に使用されるモデルデータを格納する処理と、
    前記モデルデータを外部に配信する処理とを実行するプログラムを格納したことを特徴とするコンピュータ読み取り可能な記憶媒体。
  32. 音声認識処理に使用されるモデルデータを格納する処理と、
    外部から音声認識処理の対象となる音声データを受信する処理と、
    前記受信した音声データについて前記モデルデータを使用して音声認識処理を行う処理と、
    前記音声認識処理結果を配信する処理とを実行するプログラムを格納したことを特徴とするコンピュータ読み取り可能な記憶媒体。
  33. 音声認識処理に使用されるモデルデータを作成するのに必要なデータを格納する処理と、
    外部から入力された条件に応じて前記データをもとにオンデマンドで前記モデルデータを作成する処理と、
    前記作成された前記モデルデータを外部に配信する処理とを実行するプログラムを格納したことを特徴とするコンピュータ読み取り可能な記憶媒体。
JP2003208459A 2003-08-22 2003-08-22 ネットワークシステム、データ処理装置、方法、及びコンピュータ読み取り可能な記憶媒体 Pending JP2005070092A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003208459A JP2005070092A (ja) 2003-08-22 2003-08-22 ネットワークシステム、データ処理装置、方法、及びコンピュータ読み取り可能な記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003208459A JP2005070092A (ja) 2003-08-22 2003-08-22 ネットワークシステム、データ処理装置、方法、及びコンピュータ読み取り可能な記憶媒体

Publications (1)

Publication Number Publication Date
JP2005070092A true JP2005070092A (ja) 2005-03-17

Family

ID=34401735

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003208459A Pending JP2005070092A (ja) 2003-08-22 2003-08-22 ネットワークシステム、データ処理装置、方法、及びコンピュータ読み取り可能な記憶媒体

Country Status (1)

Country Link
JP (1) JP2005070092A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007219175A (ja) * 2006-02-16 2007-08-30 Univ Waseda 認識器構築システム、認識器構築方法、組立サービス提供システム、およびプログラム
JP2007286174A (ja) * 2006-04-13 2007-11-01 Funai Electric Co Ltd 電子機器
JP2009145435A (ja) * 2007-12-12 2009-07-02 O Chuhei 複数の機器に使用される不特定話者音声認識エンジンをインターネットを介して個別のユーザに提供するシステム及び方法
WO2023286139A1 (ja) * 2021-07-12 2023-01-19 日本電信電話株式会社 学習方法、学習システム及び学習プログラム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007219175A (ja) * 2006-02-16 2007-08-30 Univ Waseda 認識器構築システム、認識器構築方法、組立サービス提供システム、およびプログラム
JP2007286174A (ja) * 2006-04-13 2007-11-01 Funai Electric Co Ltd 電子機器
JP2009145435A (ja) * 2007-12-12 2009-07-02 O Chuhei 複数の機器に使用される不特定話者音声認識エンジンをインターネットを介して個別のユーザに提供するシステム及び方法
WO2023286139A1 (ja) * 2021-07-12 2023-01-19 日本電信電話株式会社 学習方法、学習システム及び学習プログラム

Similar Documents

Publication Publication Date Title
US11636430B2 (en) Device, system and method for summarizing agreements
US7653748B2 (en) Systems, methods and computer program products for integrating advertising within web content
US8819533B2 (en) Interactive multimedia diary
US20160196439A1 (en) Audio encryption systems and methods
JP2002123462A (ja) インターネットを通じたコンテンツ提供システム及びその方法
CN101103612A (zh) 普适设备对网络服务的动态可扩展轻量级接入
EP1215656A2 (en) Idiom handling in voice service systems
Srinivasan et al. Is speech recognition becoming mainstream?
JP5348954B2 (ja) サービス提供装置、プログラム、サービス提供方法およびサービス提供システム
KR100586263B1 (ko) 내용기반 검색이 가능한 이동통신 단말기
EP1164504A3 (en) System for broadcasting requested pieces of music utilizing information system
JP2005070092A (ja) ネットワークシステム、データ処理装置、方法、及びコンピュータ読み取り可能な記憶媒体
KR102292919B1 (ko) 청각/언어 장애인의 정보 접근성 제고를 위한 문자 상담 시스템
KR100923942B1 (ko) 웹 페이지로부터 텍스트를 추출하고 이를 음성 데이터파일로 변환하여 제공하기 위한 방법, 시스템 및 컴퓨터판독 가능한 기록 매체
KR20220001140A (ko) 인공지능 기반 시 낭송 서비스 제공 시스템
JP2020204683A (ja) 電子出版物視聴覚システム、視聴覚用電子出版物作成プログラム、及び利用者端末用プログラム
JP4954260B2 (ja) 共有スペース管理システム、共有スペース管理方法及び共有スペース提供サーバ
KR20010096328A (ko) 인터넷을 통한 소리 서비스 시스템 및 방법
JP2012155272A (ja) 音声認識辞書拡張装置、システム、方法およびプログラム
JP2001256142A (ja) 音声情報提供方法及び音声情報提供装置
JP2002297191A (ja) 音声配信方法、音声配信方法に用いるサーバ側コンピュータ及びこれを実行させるプログラム並びにこのプログラムを記録した記録媒体。
KR20010069793A (ko) 무선 인터넷을 위한 왑 서비스용 컨텐츠를 브이엑스엠엘기반의 컨텐츠로 변환하여 음성 정보 서비스를 제공하는방법 및 이를 위한 시스템
JP2002351487A (ja) 音声ライブラリシステム及びその運用方法
KR20220084788A (ko) 블록체인 기반의 구두 계약 지원 방법 및 이를 지원하는 장치
US20190080695A1 (en) System and Method for Recording, Transcribing, Transmitting, and Searching Audio Data and Performing Content Parameter Calculations