JP2000250574A

JP2000250574A - コンテンツ選択システム、コンテンツ選択クライアント、コンテンツ選択サーバ及びコンテンツ選択方法

Info

Publication number: JP2000250574A
Application number: JP11056107A
Authority: JP
Inventors: Fukuji Sudo; 福治須藤; Makoto Akaha; 誠赤羽; Toshitada Doi; 利忠土井
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 1999-03-03
Filing date: 1999-03-03
Publication date: 2000-09-14
Also published as: WO2000052913A1; US7197455B1

Abstract

(57)【要約】【課題】クライアントのマイク等に音声情報を入力す
ることにより、サーバからネットワークを介してクライ
アントが受信して出力した複数の項目であるコンテンツ
の中からどのコンテンツを取得したいのかを操作者に選
択させるようにする。【解決手段】入力された音声情報をネットワークを介
してサーバシステム３に送信する通信部２ｄと、サーバ
システム３からネットワークを介してコンテンツ選択用
情報を受信して出力する出力部２ｂとを備えるクライア
ント２と、各コンテンツに関する１又は２以上の作成情
報を各コンテンツごとに記憶する作成情報記憶部９ｂ
と、クライアント２からネットワークを介して受信した
音声情報と作成情報とに基づいてコンテンツ選択用情報
を作成し、この作成されたコンテンツ選択用情報をクラ
イアント２にネットワークを介して送信する情報作成サ
ーバ７とを備えるサーバシステム３とを用いる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、クライアントのマ
イク等に音声情報を入力することにより、サーバからネ
ットワークを介してクライアントが受信して出力した複
数の項目からなるコンテンツのリストの中から、どのコ
ンテンツを取得したいのかを操作者に選択させるコンテ
ンツ選択システム、コンテンツ選択クライアント、コン
テンツ選択サーバ及びコンテンツ選択方法に関するもの
である。

【０００２】

【従来の技術】近年、携帯性が重視される例えば携帯電
話等の携帯端末が広く用いられており、携帯性の向上の
ために携帯端末の軽量化及び小型化が望まれている。携
帯端末は、小型化に伴って、キーボード等の入力装置を
小さくする又は無くす必要がある。そこで、携帯端末に
おいては、従来の入力装置に比べて比較的場所をとらな
い音声認識装置が注目を集めている。即ち、携帯端末
は、音声認識装置を用いることにより端末自身を小型化
できるだけでなく、利用者の利便性を更に向上させるこ
とができる。

【０００３】また、サーバ側とクライアント側との間で
構築されるコンテンツ選択システムにおいては、音声等
のデータ圧縮技術や放送／通信分野でのディジタル信号
処理技術の発達により、所謂ＭｕｓｉｃＯｎＤｅｍ
ａｎｄ（以下、ＭＯＤという。）等の音声情報を提供す
るサービスが実現されている。

【０００４】

【発明が解決しようとする課題】しかしながら、入力さ
れた情報を認識する手段として音声認識装置を携帯端末
に用いた場合、音声認識の誤りをなくすことは非常に困
難である。しかも、従来の音声認識装置における入力さ
れた音声情報を正確に認識できる確率は、あまり高くは
ない。

【０００５】また、ＭＯＤサービスにおいて、提供して
もらいたい音楽等を指定するために入力された音声情報
について音声認識装置が誤認識した場合には、ユーザ
は、また同じ音声情報を音声認識装置に入力しなければ
ならない。しかも、音声認識装置が次にユーザが入力す
る音声情報を正確に音声認識できるとは限らないので、
ユーザは、何度か同じ音声情報を音声認識装置に入力し
なければならなくなることもあり、こういう場合には非
常に不便である。

【０００６】さらに、ユーザがいくつかの音声情報を音
声認識装置に入力することにより提供してもらいたい音
楽等を指定した場合に、この入力された音声情報の条件
に当てはまる音楽等が複数存在するときがある。このよ
うなときに、ユーザが提供されることを要求している音
楽等を特定する方法は、非常に難しい。

【０００７】そこで、本発明は、このような実情に鑑み
てなされたものであり、クライアントのマイク等に音声
情報を入力することにより、サーバからネットワークを
介してクライアントが受信して出力した複数の項目であ
るコンテンツの中からどのコンテンツを取得したいのか
を操作者に選択させるコンテンツ選択システム、コンテ
ンツ選択クライアント、コンテンツ選択サーバ及びコン
テンツ選択方法を提供することを目的とするものであ
る。

【０００８】

【課題を解決するための手段】上述の目的を達成するた
めに、本発明に係るコンテンツ選択システムは、サーバ
がネットワークを介してクライアントにコンテンツを選
択させるためのコンテンツ選択用情報を送信するコンテ
ンツ選択システムにおいて、上記クライアントは、入力
された音声情報を上記ネットワークを介して上記サーバ
に送信する入力情報送信手段と、上記サーバから上記ネ
ットワークを介して上記コンテンツ選択用情報を受信し
て出力する出力手段とを備え、上記サーバは、各コンテ
ンツに関する１又は２以上の作成情報を各コンテンツご
とに記憶する作成情報記憶手段と、上記クライアントか
ら上記ネットワークを介して受信した音声情報と上記作
成情報とに基づいて上記コンテンツ選択用情報を作成す
るコンテンツ選択用情報作成手段と、このコンテンツ選
択用情報作成手段により作成された上記コンテンツ選択
用情報を上記クライアントにネットワークを介して送信
するコンテンツ選択用情報送信手段とを備えることを特
徴とする。

【０００９】このコンテンツ選択システムでは、クライ
アントは、入力された音声情報をネットワークを介して
サーバに送信し、サーバは、クライアントからネットワ
ークを介して受信した音声情報と作成情報とに基づいて
コンテンツ選択用情報を作成して、この作成されたコン
テンツ選択用情報をクライアントにネットワークを介し
て送信する。

【００１０】また、本発明に係るコンテンツ選択クライ
アントは、サーバからネットワークを介して送信された
コンテンツを選択させるためのコンテンツ選択用情報を
出力するコンテンツ選択クライアントにおいて、入力さ
れた音声情報を上記ネットワークを介して上記サーバに
送信する入力情報送信手段と、上記サーバから上記ネッ
トワークを介して上記コンテンツ選択用情報を受信して
出力する出力手段とを備えることを特徴とする。

【００１１】このコンテンツ選択クライアントでは、入
力された音声情報をネットワークを介してサーバに送信
し、また、サーバからネットワークを介してコンテンツ
選択用情報を受信して出力する。

【００１２】さらに、本発明に係るコンテンツ選択サー
バは、各コンテンツに関する１又は２以上の作成情報を
各コンテンツごとに記憶する作成情報記憶手段と、クラ
イアントからネットワークを介して受信した音声情報と
上記作成情報とに基づいて上記コンテンツを選択するた
めのコンテンツ選択用情報を作成するコンテンツ選択用
情報作成手段と、このコンテンツ選択用情報作成手段に
より作成された上記コンテンツ選択用情報を上記クライ
アントにネットワークを介して送信するコンテンツ選択
用情報送信手段とを備えることを特徴とする。

【００１３】このコンテンツ選択サーバでは、各コンテ
ンツに関する１又は２以上の作成情報を各コンテンツご
とに記憶し、クライアントからネットワークを介して受
信した音声情報と作成情報とに基づいてコンテンツを選
択するためのコンテンツ選択用情報を作成して、この作
成されたコンテンツ選択用情報をクライアントにネット
ワークを介して送信する。

【００１４】さらにまた、本発明に係るコンテンツ選択
方法は、サーバは、各コンテンツに関する１又は２以上
の作成情報をこの各コンテンツごとに記憶し、クライア
ントは、入力された音声情報をネットワークを介して上
記サーバに送信し、上記サーバは、上記クライアントか
ら上記ネットワークを介して受信した音声情報と上記作
成情報とに基づいて上記コンテンツを選択するためのコ
ンテンツ選択用情報を作成し、この作成されたコンテン
ツ選択用情報を上記クライアントにネットワークを介し
て送信し、上記クライアントは、上記サーバから上記ネ
ットワークを介して上記コンテンツ選択用情報を受信
し、このコンテンツ選択用情報に基づいて選択すること
を要求するコンテンツ選択要求情報を出力することを特
徴とする。

【００１５】このコンテンツ選択方法では、クライアン
トは、入力された音声情報をネットワークを介して上記
サーバに送信し、サーバは、クライアントからネットワ
ークを介して受信した音声情報と作成情報とに基づいて
コンテンツを選択するためのコンテンツ選択用情報を作
成して、この作成されたコンテンツ選択用情報をクライ
アントにネットワークを介して送信する。そして、クラ
イアントは、サーバからネットワークを介してコンテン
ツ選択用情報を受信し、このコンテンツ選択用情報に基
づいて選択することを要求するコンテンツ選択要求情報
を出力する。

【００１６】

【発明の実施の形態】以下、本発明を適用した実施の形
態について、図面を参照しながら説明する。本発明を適
用した実施の形態であるコンテンツ選択システムは、例
えば、ＩｎｔｅｒｎａｔｉｏｎａｌＭｕｌｔｉｍｅｄ
ｉａＴｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎｓ−２００
０（以下、ＩＭＴ−２０００という。）を用いたネット
ワークにおいて、所謂ＭｕｓｉｃＯｎＤｅｍａｎｄ
（以下、ＭＯＤという。）サービスを利用するための情
報提供システムの中で用いられるものである。本発明を
適用した実施の形態であるコンテンツ選択システムを図
１に示す。なお、ＩＭＴ−２０００とは、Ｉｎｔｅｒｎ
ａｔｉｏｎａｌＴｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎ
Ｕｎｉｏｎ（ＩＴＵ）が、２１世紀のディジタル携帯
電話等に採用する通信方式をいう。

【００１７】この図１に示すように、コンテンツ選択シ
ステム１は、例えば通信機能を備えるＰｅｒｓｏｎａｌ
ＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ（以下、ＰＤＡ
という。）であるクライアント２と、各種サーバを備え
るサーバシステム３と、例えばＩＭＴ−２０００を介し
てクライアント２とサーバシステム３との間の無線回線
の設定や制御を行う無線設備である公衆用基地局（以
下、基地局という。）４とを備える。

【００１８】クライアント２は、ユーザが入力した例え
ば音声情報を処理する入力部２ａと、コンテンツとこの
コンテンツを選択するためのコンテンツ選択用情報等を
出力する出力部２ｂと、サーバシステム３から受信した
コンテンツ選択用情報等を記憶するクライアント用記憶
部２ｃと、サーバシステム３との接続を確立するための
接続処理及びクライアント２が用いる通信方式に従った
通信処理を行う通信部２ｄと、上記入力部２ａと出力部
２ｂとクライアント用記憶部２ｃと通信部２ｄの各処理
部の機能を制御する制御部２ｅとを有する。

【００１９】ここで、コンテンツ選択用情報とは、サー
バシステム３からクライアント２に送信する候補となる
いくつかのコンテンツに関する情報が項目ごとに示され
たリスト等をいう。

【００２０】入力部２ａは、例えばマイク等の音声入力
装置により構成される。この入力部２ａのマイク等は、
例えば、ユーザが聴くことを希望する音楽情報であるコ
ンテンツ（以下、音楽コンテンツという。）等をサーバ
システム３から送信してもらうために、ユーザが入力し
た音声情報を制御部２ｅに供給する。なお、入力部２ａ
は、例えばキーボードやジョグダイアル等の音声以外の
入力装置により構成されていてもよい。

【００２１】出力部２ｂは、例えばスピーカ等の音声出
力装置により構成される。この出力部２ｂのスピーカ等
は、例えば、サーバシステム３から後述する通信部２ｄ
と制御部２ｅとを介して送信されてきた音楽コンテンツ
等を再生する。

【００２２】なお、出力部２ｂは、例えば、液晶ディス
プレイのような表示デバイスにより構成されていてもよ
い。また、出力部２ｂは、例えばＩｎｓｔｉｔｕｔｅ
ｏｆＥｌｅｃｔｒｉｃａｌａｎｄＥｌｅｃｔｒｏｎ
ｉｃｓＥｎｇｉｎｅｅｒｓ１３９４（以下、ＩＥＥ
Ｅ１３９４という。）端子などのディジタル出力端子を
備えることにより、サーバシステム３から受信した音楽
コンテンツ等のコンテンツを外部端子に出力してもよ
い。さらに、出力部２ｂは、サーバシステム３から基地
局４を介して受信した、例えば、歌詞、楽譜、作詞者、
作曲者、編曲者、収録アルバム、発売日等のコンテンツ
に付随する情報を、音声情報としてスピーカ等から又は
映像情報として液晶ディスプレイ等から出力してもよ
い。または、出力部２ｂは、サーバシステム３から受信
した音楽コンテンツ等のコンテンツを再生中に、このコ
ンテンツに付随する情報を液晶ディスプレイ等に表示し
てもよい。

【００２３】クライアント用記憶部２ｃは、例えば、メ
モリーカード、ＭｉｎｉＤｉｓｋ（以下、ＭＤとい
う。）、ＤｉｇｉｔａｌＡｕｄｉｏＴａｐｅｒｅｃ
ｏｒｄｅｒ（以下、ＤＡＴという。）等のクライアント
２から取り外し可能、又はフラッシュメモリやハードデ
ィスク等のクライアント２から取り外し不可能な記憶装
置により構成される。このクライアント用記憶部２ｃ
は、サーバシステム３から通信部２ｄと制御部２ｅとを
介して送信されてきた例えば音楽コンテンツや音楽コン
テンツのリスト等のコンテンツ情報を記憶する。また、
クライアント用記憶部２ｃは、各クライアント２が有す
る個別の例えばＩＭＴ−２０００用のユーザＩＤ等を記
憶し、制御部２ｅからの制御信号に基づいて制御部２ｅ
と通信部２ｄとを介してサーバシステム３にこのユーザ
ＩＤ等を送信する。

【００２４】通信部２ｄは、例えば、べースバンド部や
ＲａｄｉｏＦｒｅｑｕｅｎｃｙ（以下、ＲＦとい
う。）部により構成される。この通信部２ｄは、制御部
２ｅから供給された入力音声情報をサーバシステム３に
送信したり、サーバシステム３からコンテンツ選択用情
報等を受信し、この受信したコンテンツ選択用情報等を
制御部２ｅに供給したりする。

【００２５】制御部２ｅは、例えばＣＰＵにより構成さ
れる。この制御部２ｅは、例えば、サーバシステム３か
ら基地局４を介してコンテンツ選択用情報等を受信する
ための制御プログラムを備えており、この制御プログラ
ムを実行することにより出力部２ｂ、通信部２ｄ及びク
ライアント用記憶部２ｃの制御を行う。なお、制御部２
ｅは、入力部２ａと接続されており、この入力部２ａか
ら入力される音声情報等に基づいて上記制御プログラム
における各制御を行う。

【００２６】サーバシステム３は、例えば、クライアン
ト２から受信した入力音声情報について音声認識を行う
音声認識サーバ５と、この音声認識サーバ５が認識した
入力音声情報に基づいてクライアント２との接続認証処
理等を行う認証サーバ６と、音声認識サーバ５が認識し
た入力音声情報と後述する作成情報とに基づいてコンテ
ンツ選択用情報を作成するコンテンツ選択用情報作成サ
ーバ（以下、情報作成サーバという。）７と、このコン
テンツ選択用情報に基づいてユーザが選択したコンテン
ツをクライアント２に送信する情報提供サーバ８と、ク
ライアント２に送信するコンテンツ等を記憶するデータ
ベース９とを有する。

【００２７】音声認識サーバ５は、クライアント２の通
信部２ｄから基地局４を介して受信した情報が音声情報
である場合に、図示しない音響分析部、音響モデル及び
言語モデル等に基づいて受信した音声情報の音声認識を
行う。そして、音声認識サーバ５は、この音声認識を行
った結果である音声情報（以下、認識音声情報とい
う。）を後述する認証サーバ６や選択サーバ７に供給す
る。なお、音声認識サーバ５は、例えば音声認識を行っ
た結果が正確であるか否かをユーザに確認してもらうた
めに、認識音声情報をクライアント２に送信してもよ
い。

【００２８】ここで、音響分析部とは、入力音声情報に
対して音響的な特徴量系列の抽出を行う処理部をいう。
また、音響モデルとは、この音響分析部で抽出された個
々の特徴量との音響的な類似性の評価を行うための評価
式を用いて、音声の部分的或いは全体的な特徴量系列の
パターンとの類似性の評価を行うための情報をいう。さ
らに、言語モデルとは、音響モデルの接続に関する制約
を与えるための情報をいう。

【００２９】認証サーバ６は、音声認識サーバ５から供
給された認識音声情報等に基づいて、例えば、Ｒｅｍｏ
ｔｅＡｕｔｈｅｎｔｉｃａｔｉｏｎＤｉａｌＩｎ
ＵｓｅｒＳｅｒｖｉｓｅ（以下、ＲＡＤＩＵＳとい
う。）を用いたクライアント２への認証処理を行う。ま
た、認証サーバ６は、音声認識サーバ５から供給された
認識音声情報等に基づいて、例えば、Ｐｏｉｎｔｔｏ
ＰｏｉｎｔＰｒｏｔｏｃｏ１（以下、ＰＰＰとい
う。）等を用いたクライアント２からの接続処理を行
う。

【００３０】ここで、ＲＡＤＩＵＳとは、ダイアルイン
のためのモデムを備えたネットワーク・アクセス・サー
バに接続するというダイアルインのユーザの認証を行う
ダイアルアップ接続ユーザ認証システムをいう。また、
ＰＰＰとは、公衆電話回線などでインターネットヘ接続
するためのプロトコルをいう。

【００３１】情報作成サーバ７は、音声認識サーバ５か
ら供給された認識音声情報と、後述するデータベース９
の作成情報記憶部９ｂから取得した作成情報とに基づい
て、コンテンツ選択用情報を作成する。即ち、情報作成
サーバ７は、後述するコンテンツ選択用情報の作成方法
の中からいくつかの作成方法を用いることによりコンテ
ンツ選択用情報を作成する。そして、情報作成サーバ７
は、作成したコンテンツ選択用情報をクライアント２に
送信し、ユーザにサーバシステム３から提供してもらい
たいコンテンツを入力部２ａを用いることにより選択し
てもらう。

【００３２】情報提供サーバ８は、クライアント２が情
報作成サーバ７から受信したコンテンツ選択用情報に基
づいてユーザが選択した音楽コンテンツ等に関する情報
をクライアント２から受信することにより、クライアン
ト２に送信する音楽コンテンツ等をコンテンツ情報記憶
部９ｃから取得してクライアント２に送信する。

【００３３】データベース９は、例えばユーザＩＤとパ
スワード等の属性情報を記憶する属性情報記憶部９ａ
と、各コンテンツに関する１又は２以上の作成情報をこ
の各コンテンツごとに記憶する作成情報記憶部９ｂと、
クライアント２に送信するコンテンツ等を記憶するコン
テンツ情報記憶部９ｃとを有する。

【００３４】なお、上述したサーバシステム３の各サー
バは、同一のサーバで構成してもよい。

【００３５】以上のように構成されたコンテンツ選択シ
ステム１では、サーバシステム３は、クライアント２か
らコンテンツ選択用情報を作成するための入力音声情報
等を受信し、この入力音声情報等について音声認識を行
い、音声認識を行った入力音声情報である認識音声情報
と作成情報とに基づいてコンテンツ選択用情報を作成
し、この作成したコンテンツ選択用情報をクライアント
２に送信する。そして、クライアント２は、ユーザに聴
くことを希望する音楽コンテンツ等を選択させ、この選
択した音楽コンテンツ等に関する情報をサーバシステム
３に送信する。サーバシステム３は、クライアント２か
ら受信した音楽コンテンツ等に関する情報に基づいてコ
ンテンツ情報記憶部９ｃからユーザが選択した音楽コン
テンツ等をクライアント２に送信する。クライアント２
は、この送信された音楽コンテンツ等を出力部２ｂのス
ピーカ等を用いて再生する。

【００３６】つぎに、コンテンツ選択システム１を用い
た情報提供システムにおいて、サーバシステム３がクラ
イアント２に音楽コンテンツ等を提供するＭＯＤサービ
スが開始されてから終了するまでの一連の処理につい
て、具体的な音楽コンテンツ等の選択方法を用いた一例
を、図２に示すフローチャートに従って説明する。

【００３７】この図２に示すフローチャートでは、例え
ば、ＩＭＴ−２０００用の端末であるクライアント２
は、ＩＭＴ−２０００のデータ回線を用いた基地局４を
介して、サーバシステム３に例えば電話をかける等して
予め接続要求を出している。その後、クライアント２
は、サーバシステム３との接続が確立する。即ち、この
図２に示すフローチャートでは、クライアント２とサー
バシステム３との接続が確立している状態から説明す
る。

【００３８】まず、図２のステップＳ１において、ユー
ザがＭＯＤサービスを利用するためのサービス開始要求
情報を、クライアント２に備えられた入力部２ａのマイ
ク等に音声で入力した場合に、制御部２ｅは、入力部２
ａに入力された音声情報であるサービス開始要求情報
（以下、サービス開始要求音声情報という。）を、この
入力部２ａから供給される。制御部２ｅは、入力部２ａ
から供給されたサービス開始要求音声情報を通信部２ｄ
に供給する。通信部２ｄは、供給されたサービス開始要
求音声情報を基地局４を介してサーバシステム３の音声
認識サーバ５に送信する。

【００３９】音声認識サーバ５は、通信部２ｄから基地
局４を介して受信したサービス開始要求音声情報につい
て、図示しない音響分析部、音響モデル及び言語モデル
等に基づき音声認識を行う。音声認識サーバ５は、この
音声認識を行った結果であるサービス開始要求音声情報
（以下、認識サービス開始要求音声情報という。）を認
証サーバ６に供給する。

【００４０】認証サーバ６は、音声認識サーバ５から認
識サービス開始要求音声情報が供給されると、ユーザが
入力部２ａに音声等でユーザＩＤとパスワードを入力す
ることを要求するユーザ認証要求情報をクライアント２
に送信する。ここで、このユーザＩＤとパスワードと
は、クライアント２を所有するユーザがＭＯＤサービス
を利用する権利を有するか否かを認証するための情報を
いう。

【００４１】制御部２ｅは、認証サーバ６から通信部２
ｄを介して受信したユーザ認証要求情報を、出力部２ｂ
のスピーカ等に音声として出力させる。

【００４２】続いて、ステップＳ２において、ユーザが
出力部２ｂのスピーカ等から音声出力されたユーザ認証
要求情報に従って、入力部２ａのマイク等にユーザＩＤ
とパスワードを音声で入力した場合に、制御部２ｅは、
入力部２ａに入力された音声情報であるユーザＩＤとパ
スワードを、この入力部２ａから供給される。制御部２
ｅは、入力部２ａから供給されたユーザＩＤとパスワー
ドを通信部２ｄに供給する。通信部２ｄは、供給された
ユーザＩＤとパスワードを基地局４を介してサーバシス
テム３の音声認識サーバ５に送信する。

【００４３】音声認識サーバ５は、通信部２ｄから基地
局４を介して受信したユーザＩＤとパスワードについて
音声認識を行う。音声認識サーバ５は、この音声認識を
行った結果であるユーザＩＤとパスワード（以下、認識
ユーザＩＤ・パスワードという。）を認証サーバ６に供
給する。

【００４４】認証サーバ６は、データベース９の属性情
報記憶部９ａからユーザＩＤとパスワードを取得し、こ
の取得したユーザＩＤとパスワードに基づいて音声認識
サーバ５から供給された認識ユーザＩＤ・パスワードの
認証処理を行う。

【００４５】認証サーバ６は、この認証ができない場合
には、サービス開始不許可情報をクライアント２に送信
する。制御部２ｅは、認証サーバ６から通信部２ｄを介
して受信したサービス開始不許可情報に基づいて、ＭＯ
Ｄサービスが開始されない旨を、出力部２ｂのスピーカ
等に音声として出力させる。ユーザがこのＭＯＤサービ
スが開始されない旨をスピーカ等から聞いて、改めて入
力部２ａのマイク等にユーザＩＤとパスワードを正確に
音声で入力した場合には、制御部２ｅは、入力部２ａに
再度入力された音声情報であるユーザＩＤとパスワード
を、この入力部２ａから供給される。

【００４６】一方、認証サーバ６は、上述の認証ができ
た場合には、認証ができたことを知らせる認証成功情報
を情報作成サーバ７に供給する。情報作成サーバ７は、
この認証成功情報を認証サーバ６から供給された場合に
は、サービス開始許可情報と、ユーザに曲のタイトルを
入力するように要求するタイトル入力要求情報とをクラ
イアント２に送信する。制御部２ｅは、情報作成サーバ
７から通信部２ｄを介して受信したサービス開始許可情
報とタイトル入力要求情報とを、出力部２ｂのスピーカ
等に音声として出力させる。そして、処理は、ステップ
Ｓ３へ進む。

【００４７】続いて、ステップＳ３において、ユーザが
サービス開始許可情報とタイトル入力要求情報とをスピ
ーカ等から聞いた後に、制御部２ｅは、ユーザが入力部
２ａのマイク等にサーバシステム３から提供されること
を希望する曲のタイトル（以下、タイトルという。）を
音声で入力した音声情報（以下、タイトル音声情報とい
う。）を、この入力部２ａから供給される。制御部２ｅ
は、入力部２ａから供給されたタイトル音声情報を通信
部２ｄに供給する。通信部２ｄは、供給されたタイトル
音声情報を基地局４を介してサーバシステム３の音声認
識サーバ５に送信する。

【００４８】音声認識サーバ５は、通信部２ｄから基地
局４を介して受信したタイトル音声情報について音声認
識を行う。音声認識サーバ５は、この音声認識を行った
結果であるタイトル音声情報（以下、認識タイトル音声
情報という。）を情報作成サーバ７に供給する。

【００４９】続いて、ステップＳ４において、情報作成
サーバ７は、音声認識サーバ５から供給された認識タイ
トル音声情報と、データベース９の作成情報記憶部９ｂ
から取得した１又は２以上の各タイトルに関する作成情
報（以下、タイトル作成情報という。）とに基づいて、
サーバシステム３から提供されることを希望する曲に関
するコンテンツ選択用情報（以下、曲コンテンツ選択用
情報という。）を作成する。

【００５０】具体的には、情報作成サーバ７は、音響的
な特徴量における、認識タイトル音声情報と、作成情報
記憶部９ｂに記憶されている情報提供システムで提供可
能な曲のタイトルに関する各タイトル作成情報との類似
性を、図示しない作成情報演算処理部を用いて演算す
る。この情報作成サーバ７は、作成情報記憶部９ｂに記
憶されている全ての各タイトル作成情報に対して、音響
的な特徴量における認識タイトル音声情報との類似性を
演算する。情報作成サーバ７は、この演算値が予め設定
された所定の閾値であるＸ（以下、閾値Ｘという。）を
越えたものを、ユーザがサーバシステム３から提供され
ることを希望する曲の候補になると判断する。

【００５１】そして、演算値が閾値Ｘを越えたタイトル
作成情報に対応する曲の数が所定の定数であるＮ（以
下、定数Ｎという。）個未満である場合には、処理は、
ステップＳ８へ進む。

【００５２】一方、演算値が閾値Ｘを越えたタイトル作
成情報に対応する曲の数が定数Ｎ個以上の場合には、情
報作成サーバ７は、候補となる曲の数を絞り込むため
に、ユーザに曲のパフォーマの名前を入力するように要
求するパフォーマ名入力要求情報をクライアント２に送
信する。制御部２ｅは、情報作成サーバ７から通信部２
ｄを介して受信したパフォーマ名入力要求情報を、出力
部２ｂのスピーカ等に音声として出力させる。そして、
処理は、ステップＳ５へ進む。

【００５３】続いて、ステップＳ５において、ユーザが
パフォーマ名入力要求情報をスピーカ等から聞いた後
に、制御部２ｅは、ユーザが入力部２ａのマイク等にサ
ーバシステム３から提供されることを希望する曲のパフ
ォーマの名前（以下、パフォーマ名という。）を音声で
入力した音声情報（以下、パフォーマ名音声情報とい
う。）を、この入力部２ａから供給される。制御部２ｅ
は、入力部２ａから供給されたパフォーマ名音声情報を
通信部２ｄに供給する。通信部２ｄは、供給されたパフ
ォーマ名音声情報を基地局４を介してサーバシステム３
の音声認識サーバ５に送信する。

【００５４】音声認識サーバ５は、通信部２ｄから基地
局４を介して受信したパフォーマ名音声情報について音
声認識を行う。音声認識サーバ５は、この音声認識を行
った結果であるパフォーマ名音声情報（以下、認識パフ
ォーマ名音声情報という。）を情報作成サーバ７に供給
する。

【００５５】続いて、ステップＳ６において、情報作成
サーバ７は、音声認識サーバ５から供給された認識パフ
ォーマ名音声情報と、データベース９の作成情報記憶部
９ｂから取得した１又は２以上の各パフォーマ名に関す
る作成情報（以下、パフォーマ名作成情報という。）と
に基づいて、曲コンテンツ選択用情報を作成する。但
し、この場合のパフォーマ名作成情報とは、タイトルに
よる絞り込みで演算値が閾値Ｘを越えたものの中から取
得したパフォーマ名に関する作成情報のみをいう。従っ
て、作成情報記憶部９ｂは、予め、コンテンツである各
曲に関するタイトル、パフォーマ名、ジャンル等を記憶
している。

【００５６】具体的には、情報作成サーバ７は、音響的
な特徴量における、認識パフォーマ名音声情報と、作成
情報記憶部９ｂに記憶されている情報提供システムで提
供可能な曲のパフォーマ名に関する各パフォーマ名作成
情報との類似性を、図示しない作成情報演算処理部を用
いて演算する。この情報作成サーバ７は、作成情報記憶
部９ｂに記憶されている全ての各パフォーマ名作成情報
に対して、音響的な特徴量における認識パフォーマ名音
声情報との類似性を演算する。情報作成サーバ７は、こ
の演算値が閾値Ｘを越えたものを、ユーザがサーバシス
テム３から提供されることを希望する曲の候補になると
判断する。

【００５７】そして、演算値が閾値Ｘを越えたパフォー
マ名作成情報に対応する曲の数が定数Ｎ個未満である場
合、即ち、タイトル及びパフォーマ名の両方を用いた場
合における演算値が閾値Ｘを越えたタイトル作成情報及
びパフォーマ名作成情報に対応する曲の数が定数Ｎ個未
満であるときには、処理は、ステップＳ８へ進む。

【００５８】一方、タイトル及びパフォーマ名の両方を
用いた場合における演算値が閾値Ｘを越えたパフォーマ
名作成情報に対応する曲の数が定数Ｎ個以上のときに
は、情報作成サーバ７は、候補となる曲の数を絞り込む
ために、ユーザに曲のジャンルを入力するように要求す
るジャンル入力要求情報をクライアント２に送信する。
制御部２ｅは、情報作成サーバ７から通信部２ｄを介し
て受信したジャンル入力要求情報を、出力部２ｂのスピ
ーカ等に音声として出力させる。そして、処理は、ステ
ップＳ７へ進む。

【００５９】続いて、ステップＳ７において、ユーザが
ジャンル入力要求情報をスピーカ等から聞いた後に、制
御部２ｅは、ユーザが入力部２ａのマイク等にサーバシ
ステム３から提供されることを希望する曲のジャンル
（以下、ジャンルという。）を音声で入力した音声情報
（以下、ジャンル音声情報という。）を、この入力部２
ａから供給される。制御部２ｅは、入力部２ａから供給
されたジャンル音声情報を通信部２ｄに供給する。通信
部２ｄは、供給されたジャンル音声情報を基地局４を介
してサーバシステム３の音声認識サーバ５に送信する。

【００６０】音声認識サーバ５は、通信部２ｄから基地
局４を介して受信したジャンル音声情報について音声認
識を行う。音声認識サーバ５は、この音声認識を行った
結果であるジャンル音声情報（以下、認識ジャンル音声
情報という。）を情報作成サーバ７に供給する。

【００６１】情報作成サーバ７は、音声認識サーバ５か
ら供給された認識ジャンル音声情報と、データベース９
の作成情報記憶部９ｂから取得した１又は２以上の各ジ
ャンルに関する作成情報（以下、ジャンル作成情報とい
う。）とに基づいて、曲コンテンツ選択用情報を作成す
る。但し、この場合のジャンル作成情報とは、タイトル
及びパフォーマ名による絞り込みで演算値が閾値Ｘを越
えたものの中から取得したジャンルに関する作成情報の
みをいう。

【００６２】具体的には、情報作成サーバ７は、音響的
な特徴量における、認識ジャンル音声情報と、作成情報
記憶部９ｂに記憶されている情報提供システムで提供可
能な曲のジャンルに関する各ジャンル作成情報との類似
性を、図示しない作成情報演算処理部を用いて演算す
る。この情報作成サーバ７は、作成情報記憶部９ｂに記
憶されている全ての各ジャンル作成情報に対して、音響
的な特徴量における認識ジャンル音声情報との類似性を
演算する。情報作成サーバ７は、この演算値が閾値Ｘを
越えたものを、ユーザがサーバシステム３から提供され
ることを希望する曲の候補になると判断する。

【００６３】そして、演算値が閾値Ｘを越えたジャンル
作成情報に対応する曲の数が定数Ｎ個以下である場合、
即ち、タイトル、パフォーマ名及びジャンルを用いた場
合における演算値が閾値Ｘを越えたタイトル作成情報、
パフォーマ名作成情報及びジャンル作成情報に対応する
曲の数が定数Ｎ個未満であるときには、処理は、ステッ
プＳ８へ進む。

【００６４】一方、タイトル、パフォーマ名及びジャン
ルを用いた場合における演算値が閾値Ｘを越えたタイト
ル作成情報、パフォーマ名作成情報及びジャンル作成情
報に対応する曲の数が定数Ｎ個以上のときには、情報作
成サーバ７は、演算値がジャンル音声情報に最も類似し
ていたものから順にＮ個をクライアント２に送信する。
つまり、この場合も、処理は、ステップＳ８へ進む。

【００６５】続いて、ステップＳ８において、演算値が
閾値Ｘを越えた上記作成情報に対応する曲の数が定数Ｎ
個以上の場合に、情報作成サーバ７が曲コンテンツ選択
用情報をクライアント２に送信したときには、制御部２
ｅは、情報作成サーバ７から通信部２ｄを介して受信し
た演算値がジャンル音声情報に最も類似していたものか
らの順番であるＮ個の曲コンテンツ選択用情報を、出力
部２ｂのスピーカ等に音声として出力させる。

【００６６】この場合、制御部２ｅは、例えば、タイト
ルに関する演算値とパフォーマ名に関する演算値とジャ
ンルに関する演算値の平均等を利用して、入力された音
声情報により類似した曲から順番に並べられたＮ個の曲
のリスト等である曲コンテンツ選択用情報を、出力部２
ｂのスピーカ等に音声として出力させる。

【００６７】一方、演算値が閾値Ｘを越えた上記作成情
報に対応する曲の数が定数Ｎ個未満である場合に、情報
作成サーバ７が曲コンテンツ選択用情報をクライアント
２に送信したときには、制御部２ｅは、情報作成サーバ
７から通信部２ｄを介して受信したＮ個以下の曲コンテ
ンツ選択用情報を、出力部２ｂのスピーカ等に音声とし
て出力させる。

【００６８】この場合、制御部２ｅは、例えば、タイト
ルに関する演算値とパフォーマ名に関する演算値とジャ
ンルに関する演算値の平均等を利用して、入力された音
声情報により類似した曲から順番に並べられた曲のリス
ト等である曲コンテンツ選択用情報を、出力部２ｂのス
ピーカ等に音声として出力させる。

【００６９】なお、この曲コンテンツ選択用情報とは、
例えば、曲の名前、曲の一部、パフォーマ名、タイアッ
プしているドラマの名前、その曲が放送された番組の名
前、曲の製作者の名前など、ユーザが入力した音声情報
に対する結果となり得るもの全ての情報をいう。また、
制御部２ｅは、この曲コンテンツ選択用情報を、例え
ば、液晶ディスプレイ等を用いて、テキスト情報、画像
情報等として出力部２ｂに出力させてもよい。

【００７０】続いて、ステップＳ９において、ユーザが
曲コンテンツ選択用情報をスピーカ等から聞いた後に、
制御部２ｅは、この曲コンテンツ選択用情報である曲の
リストの中からユーザが選択した曲に関する情報を入力
部２ａのマイク等に音声で入力された音声情報を、この
入力部２ａから供給される。

【００７１】具体的には、制御部２ｅは、例えば、曲コ
ンテンツ選択用情報である曲のリストの項目に割り振ら
れた番号を入力部２ａに音声で入力された音声情報を、
この入力部２ａから供給される。

【００７２】また、制御部２ｅは、例えば、曲コンテン
ツ選択用情報である曲の名前を入力部２ａに音声で入力
された音声情報を、この入力部２ａから供給される。

【００７３】さらに、制御部２ｅは、例えば、出力部２
ｂが曲コンテンツ選択用情報である曲のリストを順番に
音声で出力している場合で、現在、音声で出力されてい
る曲をユーザが選択したいときに、「この曲」や「Ｏ
Ｋ」等という言葉が入力部２ａに音声で入力された音声
情報を、この入力部２ａから供給される。この場合、入
力部２ａは、キー入力装置やジョグダイアル等により構
成されていてもよい。

【００７４】さらにまた、制御部２ｅは、例えば、出力
部２ｂが曲コンテンツ選択用情報である曲の一部分を順
番に再生している場合で、現在、再生している曲をユー
ザが選択したいときに、「この曲」や「ＯＫ」等という
言葉が入力部２ａに音声で入力された音声情報を、この
入力部２ａから供給される。この場合も、入力部２ａ
は、キー入力装置やジョグダイアル等により構成されて
いてもよい。

【００７５】さらにまた、制御部２ｅは、例えば、予め
クライアント２がサーバシステム３からユーザの趣向に
あった曲のリストをダウンロードしてある場合に、その
曲のリストの中からユーザが選択した曲の名前が入力部
２ａに音声で入力された音声情報を、この入力部２ａか
ら供給される。このユーザの趣向にあった曲のリスト
は、ユーザが予め設定しておいてもよい。

【００７６】以上の様な操作をされることにより、曲コ
ンテンツ選択用情報である曲のリスト等の中から、ユー
ザがサーバシステム３から提供されることを希望する曲
が選択される。

【００７７】続いて、ステップＳ１０において、制御部
２ｅは、入力部２ａに入力されたユーザが曲のリストの
中から選択した曲に関する音声情報（以下、選択音声情
報という。）を、この入力部２ａから供給される。制御
部２ｅは、入力部２ａから供給された選択音声情報を通
信部２ｄに供給する。通信部２ｄは、供給された選択音
声情報を基地局４を介してサーバシステム３の音声認識
サーバ５に送信する。

【００７８】音声認識サーバ５は、通信部２ｄから基地
局４を介して受信した選択音声情報について音声認識を
行う。音声認識サーバ５は、この音声認識を行った結果
である選択音声情報（以下、認識選択音声情報とい
う。）を、クライアント２に送信する。

【００７９】制御部２ｅは、音声認識サーバ５から通信
部２ｄを介して受信した認識選択音声情報を、出力部２
ｂのスピーカ等に音声として出力させる。ユーザは、こ
の認識選択音声情報をスピーカ等から聞くことにより、
自分が選択した曲をサーバシステム３が正しく認識した
かどうか確認する。

【００８０】続いて、ステップＳ１１において、情報提
供サーバ８は、音声認識サーバ５から供給された認識選
択音声情報に基づき、クライアント２に送信する音楽等
のコンテンツをコンテンツ情報記憶部９ｃから取得して
クライアント２に送信する。

【００８１】制御部２ｅは、情報提供サーバ８から通信
部２ｄを介して受信した音楽等のコンテンツを、出力部
２ｂのスピーカ等に再生させる。

【００８２】続いて、ステップＳ１２において、出力部
２ｂからのコンテンツの再生が終了し、ユーザが引き続
きＭＯＤサービスを利用する場合には、処理は、ステッ
プＳ３へ戻る。

【００８３】一方、ユーザがＭＯＤサービスの利用を終
了するためのサービス終了要求情報を、入力部２ａのマ
イク等に音声で入力した場合には、制御部２ｅは、入力
部２ａに入力された音声情報であるサービス終了要求情
報（以下、サービス終了要求音声情報という。）を、こ
の入力部２ａから供給される。制御部２ｅは、入力部２
ａから供給されたサービス終了要求音声情報を通信部２
ｄに供給する。通信部２ｄは、供給されたサービス終了
要求音声情報を基地局４を介してサーバシステム３の音
声認識サーバ５に送信する。

【００８４】音声認識サーバ５は、通信部２ｄから基地
局４を介して受信したサービス終了要求音声情報につい
て、図示しない音響分析部、音響モデル及び言語モデル
等に基づき音声認識を行う。音声認識サーバ５は、この
音声認識を行った結果であるサービス終了要求音声情報
（以下、認識サービス終了要求音声情報という。）を情
報作成サーバ７に供給する。

【００８５】情報作成サーバ７は、音声認識サーバ５か
ら認識サービス終了要求音声情報が供給されると、サー
ビス終了許可情報をクライアント２に送信する。

【００８６】制御部２ｅは、情報作成サーバ７から通信
部２ｄを介して受信したサービス終了許可情報を、制御
部２ｅのスピーカ等に音声として出力させる。

【００８７】ユーザは、このサービス終了許可情報をス
ピーカ等から音声として聞くことによって、ＭＯＤサー
ビスが終了したことを認識する。

【００８８】以上のよう処理されることにより、ユーザ
は、サーバシステム３からＭＯＤサービスを受けること
ができる。

【００８９】なお、上述した図２に示すフローチャート
を用いた一連の処理では、入力部２ａは、音声で情報が
入力されるマイク等で構成されているが、例えばキー入
力されるキーボード等で構成されていてもよい。同様
に、出力部２ｂは、音声出力するスピーカ等で構成され
ているが、例えば、映像出力する液晶ディスプレイ等で
構成されていてもよい。また、出力部２ｂは、これらの
スピーカや液晶ディスプレイ等を用いて、映像及び音声
を同時に出力してもよい。

【００９０】また、図２に示すフローチャートを用いた
一連の処理では、音声認識サーバ５は、認識音声情報を
直接認証サーバ６や情報作成サーバ７に供給している
が、例えば音声認識を行った結果が正確であるか否かを
ユーザに確認してもらうために、認識音声情報をクライ
アント２に送信してもよい。

【００９１】そして、出力部２ｂが音声認識サーバ５か
ら受信してスピーカ等で音声出力した認識音声情報が間
違っていたとユーザが認識した場合に、制御部２ｅは、
例えば、「取り消し」や「やり直し」等の音声情報をユ
ーザが入力部２ａに再度正確に入力し直した音声情報
を、この入力部２ａから供給されてもよい。勿論、制御
部２ｅは、例えばユーザが「クリアキー」を押すことに
より、入力部２ａに再度正確に情報等を入力し直した音
声情報を、この入力部２ａから供給されてもよい。

【００９２】さらに、図２に示すフローチャートを用い
た一連の処理では、ユーザがサービス開始要求情報を入
力部２ａに音声で入力することによりサービスが開始さ
れているが、クライアント２がサーバシステム３に例え
ば電話をかける等して接続されたらサービスが開始され
るとしてもよい。

【００９３】さらにまた、図２に示すフローチャートを
用いた一連の処理では、コンテンツ選択システム１を用
いた情報提供システムにおいてＭＯＤサービスを利用し
ている途中でこのサービスの利用を終了する場合、制御
部２ｅは、ネットワークとの接続の切断を命令する切断
音声情報をユーザが入力部２ａに入力し直した音声情報
を、この入力部２ａから供給されることにより、基地局
４を介したサーバシステム３との接続を切断してＭＯＤ
サービスを終了させてもよい。勿論、制御部２ｅは、例
えばユーザが入力部２ａの図示しない「ＥＮＤ−ＫＥ
Ｙ」等を押すことにより、基地局４を介したサーバシス
テム３との接続を切断してＭＯＤサービスを終了させて
もよい。

【００９４】さらにまた、図２に示すフローチャートの
ステップＳ２において、制御部２ｅは、ユーザが入力部
２ａに音声で入力したユーザＩＤとパスワードとを、こ
の入力部２ａから供給されてもよい。しかし、例えばＩ
ＭＴ−２０００用のクライアント２の制御部２ｅは、ユ
ーザにより音声で入力部２ａに入力されたパスワードの
みを、この入力部２ａから供給されてもよい。ＩＭＴ−
２０００用の各クライアント２は、全て他のクライアン
ト２と違うユーザＩＤを予め保持しているからである。

【００９５】つぎに、上述した曲コンテンツ選択用情報
の作成方法以外の作成方法を利用したコンテンツ選択シ
ステム１を用いた情報提供システムにおいて、ＭＯＤサ
ービスが開始されてから修了するまでの一連の処理につ
いて、図３に示すフローチャートに従って説明する。こ
の処理は、上述した処理と異なり、次にどういう情報が
入力されればコンテンツ選択用情報を速く作成できるの
かをサーバシステム３側が判断し、その判断された情報
をユーザに入力させるものである。

【００９６】この図３に示すフローチャートでは、例え
ば、ＩＭＴ−２０００用の端末であるクライアント２
は、ＩＭＴ−２０００のデータ回線を用いた基地局４を
介して、サーバシステム３に例えば電話をかける等して
予め接続要求を出している。その後、クライアント２
は、サーバシステム３との接続が確立する。即ち、この
図３に示すフローチャートでは、クライアント２とサー
バシステム３との接続が確立している状態から説明す
る。

【００９７】なお、この図３に示す第２の実施の形態に
おける処理は、図２に示すフローチャートにおけるステ
ップＳ４からステップＳ８までの処理を、図３に示すフ
ローチャートにおけるステップＳ２４からステップＳ３
３までの処理に換えたものである。

【００９８】まず、図３のステップＳ２１において、ユ
ーザがサービス開始要求情報を、クライアント２に備え
られた入力部２ａのマイク等に音声で入力した場合に、
制御部２ｅは、入力部２ａに入力されたサービス開始要
求音声情報を、この入力部２ａから供給される。制御部
２ｅは、入力部２ａから供給されたサービス開始要求音
声情報を通信部２ｄに供給する。通信部２ｄは、供給さ
れたサービス開始要求音声情報を基地局４を介してサー
バシステム３の音声認識サーバ５に送信する。

【００９９】音声認識サーバ５は、通信部２ｄから基地
局４を介して受信したサービス開始要求音声情報につい
て、図示しない音響分析部、音響モデル及び言語モデル
等に基づき音声認識を行う。音声認識サーバ５は、この
音声認識を行った結果である認識サービス開始要求音声
情報を認証サーバ６に供給する。

【０１００】認証サーバ６は、音声認識サーバ５から認
識サービス開始要求音声情報が供給されると、クライア
ント２を所有するユーザがＭＯＤサービスを利用する権
利を有するか否かを認証するためのユーザＩＤとパスワ
ードを、ユーザが入力部２ａに音声等で入力することを
要求するユーザ認証要求情報を、クライアント２に送信
する。

【０１０１】制御部２ｅは、認証サーバ６から通信部２
ｄを介して受信したユーザ認証要求情報を、出力部２ｂ
のスピーカ等に音声として出力させる。

【０１０２】続いて、ステップＳ２２において、ユーザ
が出力部２ｂのスピーカ等から音声出力されたユーザ認
証要求情報に従って、入力部２ａのマイク等にユーザＩ
Ｄとパスワードを音声で入力した場合に、制御部２ｅ
は、入力部２ａに入力された音声情報であるユーザＩＤ
とパスワードを、この入力部２ａから供給される。制御
部２ｅは、入力部２ａから供給されたユーザＩＤとパス
ワードを通信部２ｄに供給する。通信部２ｄは、供給さ
れたユーザＩＤとパスワードを基地局４を介してサーバ
システム３の音声認識サーバ５に送信する。

【０１０３】音声認識サーバ５は、通信部２ｄから基地
局４を介して受信したユーザＩＤとパスワードについて
音声認識を行う。音声認識サーバ５は、この音声認識を
行った結果である認識ユーザＩＤ・パスワードを認証サ
ーバ６に供給する。

【０１０４】認証サーバ６は、データベース９の属性情
報記憶部９ａからユーザＩＤとパスワードを取得し、こ
の取得したユーザＩＤとパスワードに基づいて音声認識
サーバ５から供給された認識ユーザＩＤ・パスワードの
認証処理を行う。

【０１０５】認証サーバ６は、この認証ができない場合
には、サービス開始不許可情報をクライアント２に送信
する。制御部２ｅは、認証サーバ６から通信部２ｄを介
して受信したサービス開始不許可情報に基づいて、ＭＯ
Ｄサービスが開始されない旨を、出力部２ｂのスピーカ
等に音声として出力させる。ユーザがこのＭＯＤサービ
スが開始されない旨をスピーカ等から聞いて、改めて入
力部２ａのマイク等にユーザＩＤとパスワードを正確に
音声で入力した場合には、制御部２ｅは、入力部２ａに
再度入力された音声情報であるユーザＩＤとパスワード
を、この入力部２ａから供給される。

【０１０６】一方、認証サーバ６は、上述の認証ができ
た場合には、認証ができたことを知らせる認証成功情報
を情報作成サーバ７に供給する。情報作成サーバ７は、
この認証成功情報を認証サーバ６から供給された場合に
は、サービス開始許可情報と、ユーザに曲のタイトルを
入力するように要求するタイトル入力要求情報とをクラ
イアント２に送信する。制御部２ｅは、情報作成サーバ
７から通信部２ｄを介して受信したサービス開始許可情
報とタイトル入力要求情報とを、出力部２ｂのスピーカ
等に音声として出力させる。そして、処理は、ステップ
Ｓ２３へ進む。

【０１０７】続いて、ステップＳ２３において、ユーザ
がサービス開始許可情報とタイトル入力要求情報とをス
ピーカ等から聞いた後に、制御部２ｅは、ユーザが入力
部２ａのマイク等に音声で入力したタイトル音声情報
を、この入力部２ａから供給される。制御部２ｅは、入
力部２ａから供給されたタイトル音声情報を通信部２ｄ
に供給する。通信部２ｄは、供給されたタイトル音声情
報を基地局４を介してサーバシステム３の音声認識サー
バ５に送信する。

【０１０８】音声認識サーバ５は、通信部２ｄから基地
局４を介して受信したタイトル音声情報について音声認
識を行う。音声認識サーバ５は、この音声認識を行った
結果である認識タイトル音声情報を情報作成サーバ７に
供給する。

【０１０９】続いて、ステップＳ２４において、情報作
成サーバ７は、音声認識サーバ５から供給された認識タ
イトル音声情報と、データベース９の作成情報記憶部９
ｂから取得した１又は２以上の各タイトル作成情報とに
基づいて、曲コンテンツ選択用情報を作成する。

【０１１０】具体的には、情報作成サーバ７は、音響的
な特徴量における、認識タイトル音声情報と、作成情報
記憶部９ｂに記憶されている情報提供システムで提供可
能な曲のタイトルに関する各タイトル作成情報との類似
性を、図示しない作成情報演算処理部を用いて演算す
る。この情報作成サーバ７は、作成情報記憶部９ｂに記
憶されている全ての各タイトル作成情報に対して、音響
的な特徴量における認識タイトル音声情報との類似性を
演算する。情報作成サーバ７は、この演算値が閾値Ｘを
越えたものを、ユーザがサーバシステム３から提供され
ることを希望する曲の候補になると判断する。

【０１１１】そして、演算値が閾値Ｘを越えたタイトル
作成情報に対応する曲の数が定数Ｎ個未満である場合に
は、処理は、ステップＳ３３へ進む。

【０１１２】ステップＳ２５において、演算値が閾値Ｘ
を越えたタイトル作成情報に対応する曲の数が定数Ｎ個
以上の場合には、情報作成サーバ７は、候補となる曲の
数を速く絞り込むために、作成情報記憶部９ｂからタイ
トルの入力情報から決定された候補に関するパフォーマ
名及びジャンルの音声としての作成情報を取得して用い
ることにより、このパフォーマ名及びジャンルの各作成
情報の範疇ごとのばらつきを演算する。なお、候補とな
る曲の数の絞り込みは、ユーザからの音声情報の入力に
対して、このばらつきの程度が大きければ大きいほど速
くできる場合がある。

【０１１３】続いて、ステップＳ２６において、ジャン
ルの音声情報の方がばらつきの程度が大きい場合には、
情報作成サーバ７は、ジャンル入力要求情報をクライア
ント２に送信する。制御部２ｅは、情報作成サーバ７か
ら通信部２ｄと制御部２ｅとを介して受信したジャンル
入力要求情報を、出力部２ｂのスピーカ等に音声として
出力させる。そして、処理は、ステップＳ３０へ進む。

【０１１４】一方、パフォーマ名の音声情報の方がばら
つきの程度が大きい場合には、情報作成サーバ７は、パ
フォーマ名入力要求情報をクライアント２に送信する。
制御部２ｅは、情報作成サーバ７から通信部２ｄを介し
て受信したパフォーマ名入力要求情報を、出力部２ｂの
スピーカ等に音声として出力させる。そして、処理は、
ステップＳ２７へ進む。

【０１１５】続いて、ステップＳ２７において、ユーザ
がパフォーマ名入力要求情報をスピーカ等から聞いた後
に、制御部２ｅは、入力部２ａのマイク等にパフォーマ
名をユーザにより音声で入力された音声情報（以下、パ
フォーマ名音声情報という。）を、この入力部２ａから
供給される。制御部２ｅは、入力部２ａから供給された
パフォーマ名音声情報を通信部２ｄに供給する。通信部
２ｄは、供給されたパフォーマ名音声情報を基地局４を
介してサーバシステム３の音声認識サーバ５に送信す
る。

【０１１６】音声認識サーバ５は、通信部２ｄから基地
局４を介して受信したパフォーマ名音声情報について音
声認識を行う。音声認識サーバ５は、この音声認識を行
った結果である認識パフォーマ名音声情報を情報作成サ
ーバ７に供給する。

【０１１７】続いて、ステップＳ２８において、情報作
成サーバ７は、音声認識サーバ５から供給された認識パ
フォーマ名音声情報と、データベース９の作成情報記憶
部９ｂから取得した１又は２以上の各パフォーマ名作成
情報とに基づいて、曲コンテンツ選択用情報を作成す
る。但し、この場合のパフォーマ名作成情報とは、タイ
トルによる絞り込みで演算値が閾値Ｘを越えたものの中
から取得したパフォーマ名に関する作成情報のみをい
う。従って、作成情報記憶部９ｂは、予め、コンテンツ
である各曲に関するタイトル、パフォーマ名、ジャンル
等を記憶している。

【０１１８】具体的には、情報作成サーバ７は、音響的
な特徴量における、認識パフォーマ名音声情報と、作成
情報記憶部９ｂに記憶されている情報提供システムで提
供可能な曲のパフォーマ名に関する各パフォーマ名作成
情報との類似性を、図示しない作成情報演算処理部を用
いて演算する。この情報作成サーバ７は、作成情報記憶
部９ｂに記憶されている全ての各パフォーマ名作成情報
に対して、音響的な特徴量における認識パフォーマ名音
声情報との類似性を演算する。情報作成サーバ７は、こ
の演算値が閾値Ｘを越えたものを、ユーザがサーバシス
テム３から提供されることを希望する曲の候補になると
判断する。

【０１１９】そして、演算値が閾値Ｘを越えたパフォー
マ名作成情報に対応する曲の数が定数Ｎ個未満である場
合、即ち、タイトル及びパフォーマ名の両方を用いた場
合における演算値が閾値Ｘを越えたタイトル作成情報及
びパフォーマ名作成情報に対応する曲の数が定数Ｎ個以
下であるときには、処理は、ステップＳ３３へ進む。

【０１２０】一方、タイトル及びパフォーマ名の両方を
用いた場合における演算値が閾値Ｘを越えたタイトル作
成情報及びパフォーマ名作成情報に対応する曲の数が定
数Ｎ個以上のときには、情報作成サーバ７は、候補とな
る曲の数を絞り込むために、ユーザに曲のジャンルを入
力するように要求するジャンル入力要求情報をクライア
ント２に送信する。制御部２ｅは、情報作成サーバ７か
ら通信部２ｄを介して受信したジャンル入力要求情報
を、出力部２ｂのスピーカ等に音声として出力させる。
そして、処理は、ステップＳ２９へ進む。

【０１２１】続いて、ステップＳ２９において、ユーザ
がジャンル入力要求情報をスピーカ等から聞いた後に、
制御部２ｅは、入力部２ａのマイク等にジャンルをユー
ザにより音声で入力されたジャンル音声情報を、この入
力部２ａから供給される。制御部２ｅは、入力部２ａか
ら供給されたジャンル音声情報を通信部２ｄに供給す
る。通信部２ｄは、供給されたジャンル音声情報を基地
局４を介してサーバシステム３の音声認識サーバ５に送
信する。

【０１２２】音声認識サーバ５は、通信部２ｄから基地
局４を介して受信したジャンル音声情報について音声認
識を行う。音声認識サーバ５は、この音声認識を行った
結果である認識ジャンル音声情報を情報作成サーバ７に
供給する。

【０１２３】情報作成サーバ７は、音声認識サーバ５か
ら供給された認識ジャンル音声情報と、データベース９
の作成情報記憶部９ｂから取得した１又は２以上の各ジ
ャンル作成情報とに基づいて、曲コンテンツ選択用情報
を作成する。但し、この場合のジャンル作成情報とは、
タイトル及びパフォーマ名による絞り込みで演算値が閾
値Ｘを越えたものの中から取得したジャンルに関する作
成情報のみをいう。

【０１２４】具体的には、情報作成サーバ７は、音響的
な特徴量における、認識ジャンル音声情報と、作成情報
記憶部９ｂに記憶されている情報提供システムで提供可
能な曲のジャンルに関する各ジャンル作成情報との類似
性を、図示しない作成情報演算処理部を用いて演算す
る。この情報作成サーバ７は、作成情報記憶部９ｂに記
憶されている全ての各ジャンル作成情報に対して、音響
的な特徴量における認識ジャンル音声情報との類似性を
演算する。情報作成サーバ７は、この演算値が閾値Ｘを
越えたものを、ユーザがサーバシステム３から提供され
ることを希望する曲の候補になると判断する。

【０１２５】そして、演算値が閾値Ｘを越えたジャンル
作成情報に対応する曲の数が定数Ｎ個未満である場合、
即ち、タイトル、パフォーマ名及びジャンルを用いた場
合における演算値が閾値Ｘを越えたタイトル作成情報、
パフォーマ名及びジャンル作成情報に対応する曲の数が
定数Ｎ個未満であるときには、処理は、ステップＳ３３
へ進む。

【０１２６】一方、タイトル、パフォーマ名及びジャン
ルを用いた場合における演算値が閾値Ｘを越えたタイト
ル作成情報、パフォーマ名及びジャンル作成情報に対応
する曲の数が定数Ｎ個以上のときには、情報作成サーバ
７は、演算値がジャンル音声情報に最も類似していたも
のから順にＮ個をクライアント２に送信する。つまり、
この場合も、処理は、ステップＳ３３へ進む。

【０１２７】また、ステップＳ３０からステップＳ３２
においても、上述したステップＳ２７からステップＳ２
９と同様な処理が行われる。但し、これらのステップＳ
３０からステップＳ３２では、ジャンル、パフォーマ名
の順で音声入力される。

【０１２８】続いて、ステップＳ３３において、演算値
が閾値Ｘを越えたジャンル作成情報に対応する曲の数が
定数Ｎ個未満である場合に、情報作成サーバ７が曲コン
テンツ選択用情報をクライアント２に送信したときに
は、制御部２ｅは、情報作成サーバ７から通信部２ｄを
介して受信したＮ個未満の曲コンテンツ選択用情報を、
出力部２ｂのスピーカ等に音声として出力させる。

【０１２９】この場合、制御部２ｅは、例えば、タイト
ルに関する演算値とパフォーマ名に関する演算値とジャ
ンルに関する演算値の平均等を利用して、入力された音
声情報により類似した曲から順番に並べられた曲のリス
ト等である曲コンテンツ選択用情報を、出力部２ｂのス
ピーカ等に音声として出力させる。

【０１３０】なお、この曲コンテンツ選択用情報とは、
例えば、曲の名前、曲の一部、パフォーマ名、タイアッ
プしているドラマの名前、その曲が放送された番組の名
前、曲の製作者の名前など、ユーザが入力した音声情報
に対する結果となり得るもの全ての情報をいう。また、
制御部２ｅは、この曲コンテンツ選択用情報を、例え
ば、液晶ディスプレイ等を用いて、テキスト情報、画像
情報等として出力部２ｂに出力させてもよい。

【０１３１】一方、演算値が閾値Ｘを越えたジャンル作
成情報に対応する曲の数が定数Ｎ個以上の場合に、情報
作成サーバ７が曲コンテンツ選択用情報をクライアント
２に送信したときには、制御部２ｅは、情報作成サーバ
７から通信部２ｄを介して受信した演算値がジャンル音
声情報に最も近似していたものからの順番であるＮ個の
曲コンテンツ選択用情報を、出力部２ｂのスピーカ等に
音声として出力させる。

【０１３２】この場合、制御部２ｅは、例えば、タイト
ルに関する演算値とパフォーマ名に関する演算値とジャ
ンルに関する演算値の平均等を利用して、入力された音
声情報により類似した曲から順番に並べられたＮ個の曲
のリスト等である曲コンテンツ選択用情報を、出力部２
ｂのスピーカ等に音声として出力させる。

【０１３３】続いて、ステップＳ３４において、ユーザ
が曲コンテンツ選択用情報をスピーカ等から聞いた後
に、制御部２ｅは、この曲コンテンツ選択用情報である
曲のリストの中からユーザが選択した曲に関する情報を
入力部２ａのマイク等に音声で入力された音声情報を、
この入力部２ａから供給される。

【０１３４】具体的には、制御部２ｅは、例えば、曲コ
ンテンツ選択用情報である曲のリストの項目に割り振ら
れた番号を入力部２ａに音声で入力された音声情報を、
この入力部２ａから供給される。

【０１３５】また、制御部２ｅは、例えば、曲コンテン
ツ選択用情報である曲の名前を入力部２ａに音声で入力
された音声情報を、この入力部２ａから供給される。

【０１３６】さらに、制御部２ｅは、例えば、出力部２
ｂが曲コンテンツ選択用情報である曲のリストを順番に
音声で出力している場合で、現在、音声で出力されてい
る曲をユーザが選択したいときに、「この曲」や「Ｏ
Ｋ」等という言葉が入力部２ａに音声で入力された音声
情報を、この入力部２ａから供給される。この場合、入
力部２ａは、キー入力装置やジョグダイアル等により構
成されていてもよい。

【０１３７】さらにまた、制御部２ｅは、例えば、出力
部２ｂが曲コンテンツ選択用情報である曲の一部分を順
番に再生している場合で、現在、再生している曲をユー
ザが選択したいときに、「この曲」や「ＯＫ」等という
言葉が入力部２ａに音声で入力された音声情報を、この
入力部２ａから供給される。この場合も、入力部２ａ
は、キー入力装置やジョグダイアル等により構成されて
いてもよい。

【０１３８】さらにまた、制御部２ｅは、例えば、予め
クライアント２がサーバシステム３からユーザの趣向に
あった曲のリストをダウンロードしてある場合に、その
曲のリストの中からユーザが選択した曲の名前が入力部
２ａに音声で入力された音声情報を、この入力部２ａか
ら供給される。このユーザの趣向にあった曲のリスト
は、ユーザが予め設定しておいてもよい。

【０１３９】以上の様な操作をされることにより、曲コ
ンテンツ選択用情報である曲のリスト等の中から、ユー
ザがサーバシステム３から提供されることを希望する曲
が選択される。

【０１４０】続いて、ステップＳ３５において、制御部
２ｅは、入力部２ａに入力された選択音声情報を、この
入力部２ａから供給される。制御部２ｅは、入力部２ａ
から供給された選択音声情報を通信部２ｄに供給する。
通信部２ｄは、供給された選択音声情報を基地局４を介
してサーバシステム３の音声認識サーバ５に送信する。

【０１４１】音声認識サーバ５は、通信部２ｄから基地
局４を介して受信した選択音声情報について音声認識を
行う。音声認識サーバ５は、この音声認識を行った結果
である認識選択音声情報をクライアント２に送信する。

【０１４２】制御部２ｅは、音声認識サーバ５から通信
部２ｄを介して受信した認識選択音声情報を、出力部２
ｂのスピーカ等に音声として出力させる。ユーザは、こ
の認識選択音声情報をスピーカ等から聞くことにより、
自分が選択した曲をサーバシステム３が正しく認識した
かどうか確認する。

【０１４３】続いて、ステップＳ３６において、情報提
供サーバ８は、音声認識サーバ５から供給された認識選
択音声情報に基づき、クライアント２に送信する音楽等
のコンテンツをコンテンツ情報記憶部９ｃから取得して
クライアント２に送信する。

【０１４４】制御部２ｅは、情報提供サーバ８から通信
部２ｄを介して受信した音楽等のコンテンツを、出力部
２ｂのスピーカ等に再生させる。

【０１４５】続いて、ステップＳ３７において、出力部
２ｂからのコンテンツの再生が終了し、ユーザが引き続
きＭＯＤサービスを利用する場合には、処理は、ステッ
プＳ２３へ戻る。

【０１４６】一方、ユーザがＭＯＤサービスの利用を終
了するためのサービス終了要求情報を、入力部２ａのマ
イク等に音声で入力した場合には、制御部２ｅは、入力
部２ａに入力されたサービス終了要求音声情報を、この
入力部２ａから供給される。制御部２ｅは、入力部２ａ
から供給されたサービス終了要求音声情報を通信部２ｄ
に供給する。通信部２ｄは、供給されたサービス終了要
求音声情報を基地局４を介してサーバシステム３の音声
認識サーバ５に送信する。

【０１４７】音声認識サーバ５は、通信部２ｄから基地
局４を介して受信したサービス終了要求音声情報につい
て、図示しない音響分析部、音響モデル及び言語モデル
等に基づき音声認識を行う。音声認識サーバ５は、この
音声認識を行った結果である認識サービス終了要求音声
情報を情報作成サーバ７に供給する。

【０１４８】情報作成サーバ７は、音声認識サーバ５か
ら認識サービス終了要求音声情報が供給されると、サー
ビス終了許可情報をクライアント２に送信する。

【０１４９】制御部２ｅは、情報作成サーバ７から通信
部２ｄを介して受信したサービス終了許可情報を、制御
部２ｅのスピーカ等に音声として出力させる。

【０１５０】ユーザは、このサービス終了許可情報をス
ピーカ等から音声として聞くことによって、ＭＯＤサー
ビスが終了したことを認識する。

【０１５１】以上のよう処理されることにより、次にど
ういう情報が入力されればコンテンツ選択用情報を速く
作成できるのかをサーバシステム３側が判断するため、
上述した第１の実施の形態におけるコンテンツ選択シス
テムよりも、ユーザは、サーバシステム３からＭＯＤサ
ービスをより速く、より正確に受けることができる。

【０１５２】つぎに、上述した候補となる曲のリストを
出力する方法以外の出力方法を利用したコンテンツ選択
システム１を用いた情報提供システムにおいて、ＭＯＤ
サービスが開始されてから修了するまでの一連の処理に
ついて、図４に示すフローチャートに従って説明する。
この処理は、上述した処理と異なり、どのように曲コン
テンツ選択用情報である曲のリストが出力されればユー
ザが容易に目的とする曲を選択できるのかをサーバシス
テム３側が判断し、その判断に基づいて曲のリスト等を
出力するものである。

【０１５３】この図４に示すフローチャートでは、例え
ば、ＩＭＴ−２０００用の端末であるクライアント２
は、ＩＭＴ−２０００のデータ回線を用いた基地局４を
介して、サーバシステム３に例えば電話をかける等して
予め接続要求を出している。その後、クライアント２
は、サーバシステム３との接続が確立する。即ち、この
図４に示すフローチャートでは、クライアント２とサー
バシステム３との接続が確立している状態から説明す
る。

【０１５４】なお、この図４に示す第３の実施の形態に
おける処理は、図２に示すフローチャートにおけるステ
ップＳ４からステップＳ８までの処理を、図４に示すフ
ローチャートにおけるステップＳ４４からステップＳ５
５の処理に換えたものである。

【０１５５】まず、図４のステップＳ４１において、ユ
ーザがサービス開始要求情報を、クライアント２に備え
られた入力部２ａのマイク等に音声で入力した場合に、
制御部２ｅは、入力部２ａに入力されたサービス開始要
求音声情報を、この入力部２ａから供給される。制御部
２ｅは、入力部２ａから供給されたサービス開始要求音
声情報を通信部２ｄに供給する。通信部２ｄは、供給さ
れたサービス開始要求音声情報を基地局４を介してサー
バシステム３の音声認識サーバ５に送信する。

【０１５６】音声認識サーバ５は、通信部２ｄから基地
局４を介して受信したサービス開始要求音声情報につい
て、図示しない音響分析部、音響モデル及び言語モデル
等に基づき音声認識を行う。音声認識サーバ５は、この
音声認識を行った結果である認識サービス開始要求音声
情報を認証サーバ６に供給する。

【０１５７】認証サーバ６は、音声認識サーバ５から認
識サービス開始要求音声情報が供給されると、クライア
ント２を所有するユーザがＭＯＤサービスを利用する権
利を有するか否かを認証するためのユーザＩＤとパスワ
ードを、ユーザが入力部２ａに音声等で入力することを
要求するユーザ認証要求情報を、クライアント２に送信
する。

【０１５８】制御部２ｅは、認証サーバ６から通信部２
ｄを介して受信したユーザ認証要求情報を、出力部２ｂ
のスピーカ等に音声として出力させる。

【０１５９】続いて、ステップＳ４２において、ユーザ
が出力部２ｂのスピーカ等から音声出力されたユーザ認
証要求情報に従って、入力部２ａのマイク等にユーザＩ
Ｄとパスワードを音声で入力した場合に、制御部２ｅ
は、入力部２ａに入力された音声情報であるユーザＩＤ
とパスワードを、この入力部２ａから供給される。制御
部２ｅは、入力部２ａから供給されたユーザＩＤとパス
ワードを通信部２ｄに供給する。通信部２ｄは、供給さ
れたユーザＩＤとパスワードを基地局４を介してサーバ
システム３の音声認識サーバ５に送信する。

【０１６０】音声認識サーバ５は、通信部２ｄから基地
局４を介して受信したユーザＩＤとパスワードについて
音声認識を行う。音声認識サーバ５は、この音声認識を
行った結果である認識ユーザＩＤ・パスワードを認証サ
ーバ６に供給する。

【０１６１】認証サーバ６は、データベース９の属性情
報記憶部９ａからユーザＩＤとパスワードを取得し、こ
の取得したユーザＩＤとパスワードに基づいて音声認識
サーバ５から供給された認識ユーザＩＤ・パスワードの
認証処理を行う。

【０１６２】認証サーバ６は、この認証ができない場合
には、サービス開始不許可情報をクライアント２に送信
する。制御部２ｅは、認証サーバ６から通信部２ｄを介
して受信したサービス開始不許可情報に基づいて、ＭＯ
Ｄサービスが開始されない旨を、出力部２ｂのスピーカ
等に音声として出力させる。ユーザがこのＭＯＤサービ
スが開始されない旨をスピーカ等から聞いて、改めて入
力部２ａのマイク等にユーザＩＤとパスワードを正確に
音声で入力した場合には、制御部２ｅは、入力部２ａに
再度入力された音声情報であるユーザＩＤとパスワード
を、この入力部２ａから供給される。

【０１６３】一方、認証サーバ６は、上述の認証ができ
た場合には、認証ができたことを知らせる認証成功情報
を情報作成サーバ７に供給する。情報作成サーバ７は、
この認証成功情報を認証サーバ６から供給された場合に
は、サービス開始許可情報と、ユーザに曲のタイトルを
入力するように要求するタイトル入力要求情報とをクラ
イアント２に送信する。制御部２ｅは、情報作成サーバ
７から通信部２ｄを介して受信したサービス開始許可情
報とタイトル入力要求情報とを、出力部２ｂのスピーカ
等に音声として出力させる。そして、処理は、ステップ
Ｓ４３へ進む。

【０１６４】続いて、ステップＳ４３において、ユーザ
がサービス開始許可情報とタイトル入力要求情報とをス
ピーカ等から聞いた後に、制御部２ｅは、ユーザが入力
部２ａのマイク等に音声で入力したタイトル音声情報
を、この入力部２ａから供給される。制御部２ｅは、入
力部２ａから供給されたタイトル音声情報を通信部２ｄ
に供給する。通信部２ｄは、供給されたタイトル音声情
報を基地局４を介してサーバシステム３の音声認識サー
バ５に送信する。

【０１６５】音声認識サーバ５は、通信部２ｄから基地
局４を介して受信したタイトル音声情報について音声認
識を行う。音声認識サーバ５は、この音声認識を行った
結果である認識タイトル音声情報を情報作成サーバ７に
供給する。

【０１６６】続いて、ステップＳ４４において、情報作
成サーバ７は、音響的な特徴量における、認識タイトル
音声情報と１又は２以上の各タイトル作成情報との類似
性を、図示しない作成情報演算処理部を用いて演算す
る。この情報作成サーバ７は、作成情報記憶部９ｂに記
憶されている全ての各タイトル作成情報に対して、音響
的な特徴量における認識タイトル音声情報との類似性を
演算する。情報作成サーバ７は、この演算値が閾値Ｘを
越えたものを、ユーザがサーバシステム３から提供され
ることを希望する曲の候補になると判断する。

【０１６７】そして、演算値が閾値Ｘを越えたタイトル
作成情報に対応する曲の数が定数Ｎ個未満である場合に
は、情報作成サーバ７が候補となる曲のリスト等である
曲コンテンツ選択用情報を作成するため、処理は、ステ
ップＳ４８へ進む。

【０１６８】一方、演算値が閾値Ｘを越えたタイトル作
成情報に対応する曲の数が定数Ｎ個以上の場合には、情
報作成サーバ７は、候補となる曲の数を絞り込むため
に、ユーザに曲のパフォーマの名前を入力するように要
求するパフォーマ名入力要求情報をクライアント２に送
信する。制御部２ｅは、情報作成サーバ７から通信部２
ｄを介して受信したパフォーマ名入力要求情報を、出力
部２ｂのスピーカ等に音声として出力させる。そして、
処理は、ステップＳ４５へ進む。

【０１６９】続いて、ステップＳ４５において、ユーザ
がパフォーマ名入力要求情報をスピーカ等から聞いた後
に、制御部２ｅは、ユーザが入力部２ａのマイク等に音
声で入力したパフォーマ名音声情報を、この入力部２ａ
から供給される。制御部２ｅは、入力部２ａから供給さ
れたパフォーマ名音声情報を通信部２ｄに供給する。通
信部２ｄは、供給されたパフォーマ名音声情報を基地局
４を介してサーバシステム３の音声認識サーバ５に送信
する。

【０１７０】音声認識サーバ５は、通信部２ｄから基地
局４を介して受信したパフォーマ名音声情報について音
声認識を行う。音声認識サーバ５は、この音声認識を行
った結果である認識パフォーマ名音声情報を情報作成サ
ーバ７に供給する。

【０１７１】続いて、ステップＳ４６において、情報作
成サーバ７は、音響的な特徴量における、認識パフォー
マ名音声情報と、作成情報記憶部９ｂに記憶されている
情報提供システムで提供可能な曲のパフォーマ名に関す
る１又は２以上の各パフォーマ名作成情報との類似性
を、図示しない作成情報演算処理部を用いて演算する。
この情報作成サーバ７は、作成情報記憶部９ｂに記憶さ
れている全ての各パフォーマ名作成情報に対して、音響
的な特徴量における認識パフォーマ名音声情報との類似
性を演算する。情報作成サーバ７は、この演算値が閾値
Ｘを越えたものを、ユーザがサーバシステム３から提供
されることを希望する曲の候補になると判断する。

【０１７２】そして、演算値が閾値Ｘを越えたパフォー
マ名作成情報に対応する曲の数が定数Ｎ個未満である場
合、即ち、タイトル及びパフォーマ名の両方を用いた場
合における演算値が閾値Ｘを越えたタイトル作成情報及
びパフォーマ名作成情報に対応する曲の数が定数Ｎ個未
満であるときには、情報作成サーバ７が候補となる曲の
リスト等である曲コンテンツ選択用情報を作成するた
め、処理は、ステップＳ４８へ進む。

【０１７３】一方、タイトル及びパフォーマ名の両方を
用いた場合における演算値が閾値Ｘを越えたタイトル作
成情報及びパフォーマ名作成情報に対応する曲の数が定
数Ｎ個以上のときには、情報作成サーバ７は、候補とな
る曲の数を絞り込むために、ユーザに曲のジャンルを入
力するように要求するジャンル入力要求情報をクライア
ント２に送信する。制御部２ｅは、情報作成サーバ７か
ら通信部２ｄを介して受信したジャンル入力要求情報
を、出力部２ｂのスピーカ等に音声として出力させる。
そして、処理は、ステップＳ４７へ進む。

【０１７４】続いて、ステップＳ４７において、ユーザ
がジャンル入力要求情報をスピーカ等から聞いた後に、
制御部２ｅは、ユーザが入力部２ａのマイク等に音声で
入力したジャンル音声情報を、この入力部２ａから供給
される。制御部２ｅは、入力部２ａから供給されたジャ
ンル音声情報を通信部２ｄに供給する。通信部２ｄは、
供給されたジャンル音声情報を基地局４を介してサーバ
システム３の音声認識サーバ５に送信する。

【０１７５】音声認識サーバ５は、通信部２ｄから基地
局４を介して受信したジャンル音声情報について音声認
識を行う。音声認識サーバ５は、この音声認識を行った
結果である認識ジャンル音声情報を情報作成サーバ７に
供給する。

【０１７６】情報作成サーバ７は、音響的な特徴量にお
ける、認識ジャンル音声情報と、作成情報記憶部９ｂに
記憶されている情報提供システムで提供可能な曲のジャ
ンルに関する１又は２以上の各ジャンル作成情報との類
似性を、図示しない作成情報演算処理部を用いて演算す
る。この情報作成サーバ７は、作成情報記憶部９ｂに記
憶されている全ての各ジャンル作成情報に対して、音響
的な特徴量における認識ジャンル音声情報との類似性を
演算する。情報作成サーバ７は、この演算値が閾値Ｘを
越えたものを、ユーザがサーバシステム３から提供され
ることを希望する曲の候補になると判断する。

【０１７７】そして、演算値が閾値Ｘを越えたジャンル
作成情報に対応する曲の数が定数Ｎ個未満である場合、
即ち、タイトル、パフォーマ名及びジャンルを用いた場
合における演算値が閾値Ｘを越えたタイトル作成情報、
パフォーマ名作成情報及びジャンル作成情報に対応する
曲の数が定数Ｎ個未満であるときには、情報作成サーバ
７が候補となる曲のリスト等である曲コンテンツ選択用
情報を作成するため、処理は、ステップＳ４８へ進む。

【０１７８】一方、タイトル、パフォーマ名及びジャン
ルを用いた場合における演算値が閾値Ｘを越えたタイト
ル作成情報、パフォーマ名作成情報及びジャンル作成情
報に対応する曲の数が定数Ｎ個以上のときには、情報作
成サーバ７が候補となる曲のリスト等である曲コンテン
ツ選択用情報を作成するため、処理は、ステップＳ４８
へ進む。但し、この場合の曲のリスト等である曲コンテ
ンツ選択用情報は、演算値がジャンル音声情報に最も類
似していたものから順にＮ個の項目からなるものであ
る。

【０１７９】続いて、ステップＳ４８において、演算値
が閾値Ｘを越えた上記作成情報に対応する曲の数が定数
Ｎ個未満である場合には、情報作成サーバ７は、Ｎ個未
満の候補となる曲のリスト等である曲コンテンツ選択用
情報を作成する。一方、演算値が閾値Ｘを越えた上記作
成情報に対応する曲の数が定数Ｎ個以上の場合には、情
報作成サーバ７は、演算値がジャンル音声情報に最も類
似していたものから順番に取得したＮ個の候補となる曲
のリスト等である曲コンテンツ選択用情報を作成する。

【０１８０】続いて、ステップＳ４９において、情報作
成サーバ７は、作成した曲コンテンツ選択用情報を、テ
キスト表示等として文字で出力した方がユーザが曲を選
択しやすいか否かを図示しない最適出力状態判断部を用
いて判断し、文字で出力するのが最適だと判断しなかっ
たときは、処理は、ステップＳ５１へ進む。

【０１８１】一方、情報作成サーバ７は、作成した曲コ
ンテンツ選択用情報を、テキスト表示等として文字で出
力した方がユーザが曲を選択しやすいか否かを図示しな
い最適出力状態判断部を用いて判断し、文字で出力する
のが最適だと判断したときは、文字で出力するための曲
コンテンツ選択用情報をクライアント２に送信する。

【０１８２】続いて、ステップＳ５０において、演算値
が閾値Ｘを越えた上記作成情報に対応する曲の数が定数
Ｎ個未満である場合に、情報作成サーバ７が曲コンテン
ツ選択用情報をクライアント２に送信したときには、制
御部２ｅは、情報作成サーバ７から通信部２ｄを介して
受信したＮ個未満の曲コンテンツ選択用情報を、出力部
２ｂの液晶ディスプレイ等に文字として表示させる。

【０１８３】一方、演算値が閾値Ｘを越えた上記作成情
報に対応する曲の数が定数Ｎ個以上の場合に、情報作成
サーバ７が曲コンテンツ選択用情報をクライアント２に
送信したときには、制御部２ｅは、情報作成サーバ７か
ら通信部２ｄを介して受信した演算値がジャンル音声情
報に最も類似していたものからの順番であるＮ個の曲コ
ンテンツ選択用情報を、出力部２ｂの液晶ディスプレイ
等に文字として出力させる。

【０１８４】続いて、ステップＳ５１において、情報作
成サーバ７が、作成した曲コンテンツ選択用情報を、静
止画で出力した方がユーザが曲を選択しやすいか否かを
図示しない最適出力状態判断部を用いて判断し、静止画
で出力するのが最適だと判断しなかったときは、処理
は、ステップＳ５３へ進む。

【０１８５】一方、情報作成サーバ７は、作成した曲コ
ンテンツ選択用情報を、ＣＤのジャケット写真等によっ
て静止画で出力した方がユーザが曲を選択しやすいか否
かを図示しない最適出力状態判断部を用いて判断し、静
止画で出力するのが最適だと判断したときは、静止画で
出力するための曲コンテンツ選択用情報をクライアント
２に送信する。

【０１８６】続いて、ステップＳ５２において、演算値
が閾値Ｘを越えた上記作成情報に対応する曲の数が定数
Ｎ個未満である場合に、情報作成サーバ７が曲コンテン
ツ選択用情報をクライアント２に送信したときには、制
御部２ｅは、情報作成サーバ７から通信部２ｄを介して
受信したＮ個未満の曲コンテンツ選択用情報を、出力部
２ｂの液晶ディスプレイ等に静止画として出力させる。

【０１８７】一方、演算値が閾値Ｘを越えた上記作成情
報に対応する曲の数が定数Ｎ個以上の場合に、情報作成
サーバ７が曲コンテンツ選択用情報をクライアント２に
送信したときには、制御部２ｅは、情報作成サーバ７か
ら通信部２ｄを介して受信した演算値がジャンル音声情
報に最も類似していたものからの順番であるＮ個の曲コ
ンテンツ選択用情報を、出力部２ｂの液晶ディスプレイ
等に静止画として出力させる。

【０１８８】続いて、ステップＳ５３において、情報作
成サーバ７は、作成した曲コンテンツ選択用情報を、Ｖ
ｉｄｅｏＣｌｉｐ等によって動画で出力した方がユー
ザが曲を選択しやすいか否かを図示しない最適出力状態
判断部を用いて判断し、動画で出力するのが最適だと判
断したときは、動画で出力するための曲コンテンツ選択
用情報をクライアント２に送信する。

【０１８９】一方、情報作成サーバ７は、作成した曲コ
ンテンツ選択用情報を、動画で出力した方がユーザが曲
を選択しやすいか否かを図示しない最適出力状態判断部
を用いて判断し、動画で出力するのが最適だと判断しな
かったときは、処理は、ステップＳ５３へ進む。

【０１９０】続いて、ステップＳ５４において、演算値
が閾値Ｘを越えた上記作成情報に対応する曲の数が定数
Ｎ個未満である場合に、情報作成サーバ７が曲コンテン
ツ選択用情報をクライアント２に送信したときには、制
御部２ｅは、情報作成サーバ７から通信部２ｄと制御部
２ｅとを介して受信したＮ個未満の曲コンテンツ選択用
情報を、出力部２ｂの液晶ディスプレイ等に動画として
出力させる。

【０１９１】一方、演算値が閾値Ｘを越えた上記作成情
報に対応する曲の数が定数Ｎ個以上の場合に、情報作成
サーバ７が曲コンテンツ選択用情報をクライアント２に
送信したときには、制御部２ｅは、情報作成サーバ７か
ら通信部２ｄを介して受信した演算値がジャンル音声情
報に最も類似していたものからの順番であるＮ個の曲コ
ンテンツ選択用情報を、出力部２ｂの液晶ディスプレイ
等に動画として出力させる。

【０１９２】続いて、ステップＳ５５において、演算値
が閾値Ｘを越えた上記作成情報に対応する曲の数が定数
Ｎ個未満である場合に、情報作成サーバ７が曲コンテン
ツ選択用情報をクライアント２に送信したときには、制
御部２ｅは、情報作成サーバ７から通信部２ｄを介して
受信したＮ個未満の曲コンテンツ選択用情報を、出力部
２ｂのスピーカ等に曲を音声として出力させる。

【０１９３】一方、演算値が閾値Ｘを越えた上記作成情
報に対応する曲の数が定数Ｎ個以上の場合に、情報作成
サーバ７が曲コンテンツ選択用情報をクライアント２に
送信したときには、制御部２ｅは、情報作成サーバ７か
ら通信部２ｄを介して受信した演算値がジャンル音声情
報に最も類似していたものからの順番であるＮ個の曲コ
ンテンツ選択用情報を、出力部２ｂのスピーカ等に曲を
音声として出力させる。

【０１９４】続いて、ステップＳ５６において、ユーザ
が曲コンテンツ選択用情報をスピーカ等から聞いた後
に、制御部２ｅは、この曲コンテンツ選択用情報である
曲のリストの中からユーザが選択した曲に関する情報を
入力部２ａのマイク等に音声で入力された音声情報を、
この入力部２ａから供給される。

【０１９５】具体的には、制御部２ｅは、例えば、曲コ
ンテンツ選択用情報である曲のリストの項目に割り振ら
れた番号を入力部２ａに音声で入力された音声情報を、
この入力部２ａから供給される。

【０１９６】また、制御部２ｅは、例えば、曲コンテン
ツ選択用情報である曲の名前を入力部２ａに音声で入力
された音声情報を、この入力部２ａから供給される。

【０１９７】さらに、制御部２ｅは、例えば、出力部２
ｂが曲コンテンツ選択用情報である曲のリストを順番に
音声で出力している場合で、現在、音声で出力されてい
る曲をユーザが選択したいときに、「この曲」や「Ｏ
Ｋ」等という言葉が入力部２ａに音声で入力された音声
情報を、この入力部２ａから供給される。この場合、入
力部２ａは、キー入力装置やジョグダイアル等により構
成されていてもよい。

【０１９８】さらにまた、制御部２ｅは、例えば、出力
部２ｂが曲コンテンツ選択用情報である曲の一部分を順
番に再生している場合で、現在、再生している曲をユー
ザが選択したいときに、「この曲」や「ＯＫ」等という
言葉が入力部２ａに音声で入力された音声情報を、この
入力部２ａから供給される。この場合も、入力部２ａ
は、キー入力装置やジョグダイアル等により構成されて
いてもよい。

【０１９９】さらにまた、制御部２ｅは、例えば、予め
クライアント２がサーバシステム３からユーザの趣向に
あった曲のリストをダウンロードしてある場合に、その
曲のリストの中からユーザが選択した曲の名前が入力部
２ａに音声で入力された音声情報を、この入力部２ａか
ら供給される。このユーザの趣向にあった曲のリスト
は、ユーザが予め設定しておいてもよい。

【０２００】以上の様な操作をされることにより、曲コ
ンテンツ選択用情報である曲のリスト等の中から、ユー
ザがサーバシステム３から提供されることを希望する曲
が選択される。

【０２０１】続いて、ステップＳ５７において、制御部
２ｅは、入力部２ａに入力された選択音声情報を、この
入力部２ａから供給される。制御部２ｅは、入力部２ａ
から供給された選択音声情報を通信部２ｄに供給する。
通信部２ｄは、供給された選択音声情報を基地局４を介
してサーバシステム３の音声認識サーバ５に送信する。

【０２０２】音声認識サーバ５は、通信部２ｄから基地
局４を介して受信した選択音声情報について音声認識を
行う。音声認識サーバ５は、この音声認識を行った結果
である認識選択音声情報を、クライアント２に送信す
る。

【０２０３】制御部２ｅは、音声認識サーバ５から通信
部２ｄを介して受信した認識選択音声情報を、出力部２
ｂのスピーカ等に音声として出力させる。ユーザは、こ
の認識選択音声情報をスピーカ等から聞くことにより、
自分が選択した曲をサーバシステム３が正しく認識した
かどうか確認する。

【０２０４】続いて、ステップＳ５８において、情報提
供サーバ８は、音声認識サーバ５から供給された認識選
択音声情報に基づき、クライアント２に送信する音楽等
のコンテンツをコンテンツ情報記憶部９ｃから取得して
クライアント２に送信する。

【０２０５】制御部２ｅは、情報提供サーバ８から通信
部２ｄを介して受信した音楽等のコンテンツを、出力部
２ｂのスピーカ等に再生させる。

【０２０６】続いて、ステップＳ５９において、出力部
２ｂからのコンテンツの再生が終了し、ユーザが引き続
きＭＯＤサービスを利用する場合には、処理は、ステッ
プＳ４３へ戻る。

【０２０７】一方、ユーザがＭＯＤサービスの利用を終
了するためのサービス終了要求情報を、入力部２ａのマ
イク等に音声で入力した場合には、制御部２ｅは、入力
部２ａに入力された音声情報であるサービス終了要求音
声情報を、この入力部２ａから供給される。制御部２ｅ
は、入力部２ａから供給されたサービス終了要求音声情
報を通信部２ｄに供給する。通信部２ｄは、供給された
サービス終了要求音声情報を基地局４を介してサーバシ
ステム３の音声認識サーバ５に送信する。

【０２０８】音声認識サーバ５は、通信部２ｄから基地
局４を介して受信したサービス終了要求音声情報につい
て、図示しない音響分析部、音響モデル及び言語モデル
等に基づき音声認識を行う。音声認識サーバ５は、この
音声認識を行った結果である認識サービス終了要求音声
情報を情報作成サーバ７に供給する。

【０２０９】情報作成サーバ７は、音声認識サーバ５か
ら認識サービス終了要求音声情報が供給されると、サー
ビス終了許可情報をクライアント２に送信する。

【０２１０】制御部２ｅは、情報作成サーバ７から通信
部２ｄを介して受信したサービス終了許可情報を、制御
部２ｅのスピーカ等に音声として出力させる。

【０２１１】ユーザは、このサービス終了許可情報をス
ピーカ等から音声として聞くことによって、ＭＯＤサー
ビスが終了したことを認識する。

【０２１２】以上のよう処理されることにより、どのよ
うに曲コンテンツ選択用情報である曲のリストが出力さ
れればユーザが容易に目的とする曲を選択できるのかを
サーバシステム３側が判断するため、上述した第１の実
施の形態におけるコンテンツ選択システムよりも、ユー
ザは、曲コンテンツ選択用情報である曲のリストから目
的とする曲をより簡単に、より速く選択することができ
る。

【０２１３】以上述べたように、本発明を適用した実施
の形態であるコンテンツ選択システム１では、ユーザ
は、入力部２ａのマイク等に音声情報を入力することに
より、出力部２ｂに出力された曲のリストの中から簡単
に目的とする曲を選択することができる。従って、ユー
ザは、音声認識装置を備えたクライアント２又はサーバ
システム３を用いることにより、簡単な操作でＭＯＤサ
ービスを利用することができる。

【０２１４】なお、上述したコンテンツ選択システム１
は、ＩＭＴ−２０００を用いてネットワークを構築して
いるが、他の通信方式のネットワークを用いてもよい。
また、上述したクライアント２は、図１では便宜上１つ
しか示していないが、実際には複数のクライアント２が
ＩＭＴ−２０００を介してサーバシステム３と接続され
ることになる。さらに、上述した音声認識機能は、音声
認識サーバ５に備えられているが、クライアント２等に
備えられていてもよい。

【０２１５】

【発明の効果】以上説明したように、本発明に係るコン
テンツ選択システム、コンテンツ選択クライアント、コ
ンテンツ選択サーバ及びコンテンツ選択方法によれば、
操作者は、クライアントの入力情報送信手段に音声情報
を入力することにより、出力手段に出力されたコンテン
ツの中から速く簡単に目的とするコンテンツを選択する
ことができる。

【図面の簡単な説明】

【図１】本発明を適用した実施の形態を示すコンテンツ
選択システムの構成図である。

【図２】本発明を適用した第１の実施の形態における、
ＭＯＤサービスが開始されてから終了するまでの一連の
処理の流れを示すフローチャートである。

【図３】本発明を適用した第２の実施の形態における、
ＭＯＤサービスが開始されてから終了するまでの一連の
処理の流れを示すフローチャートである。

【図４】本発明を適用した第３の実施の形態における、
ＭＯＤサービスが開始されてから終了するまでの一連の
処理の流れを示すフローチャートである。

【符号の説明】

１コンテンツ選択システム、２クライアント、３
サーバシステム、４基地局、５音声認識サーバ、６
認証サーバ、７選択サーバ、８情報提供サーバ、９
データベース

───────────────────────────────────────────────────── フロントページの続き (72)発明者土井利忠東京都品川区北品川６丁目７番35号ソニー株式会社内Ｆターム(参考） 5D015 KK01 KK02 LL04

Claims

【特許請求の範囲】

【請求項１】サーバがネットワークを介してクライア
ントにコンテンツを選択させるためのコンテンツ選択用
情報を送信するコンテンツ選択システムにおいて、上記クライアントは、入力された音声情報を上記ネット
ワークを介して上記サーバに送信する入力情報送信手段
と、上記サーバから上記ネットワークを介して上記コン
テンツ選択用情報を受信して出力する出力手段とを備
え、上記サーバは、各コンテンツに関する１又は２以上の作
成情報を各コンテンツごとに記憶する作成情報記憶手段
と、上記クライアントから上記ネットワークを介して受
信した音声情報と上記作成情報とに基づいて上記コンテ
ンツ選択用情報を作成するコンテンツ選択用情報作成手
段と、このコンテンツ選択用情報作成手段により作成さ
れた上記コンテンツ選択用情報を上記クライアントにネ
ットワークを介して送信するコンテンツ選択用情報送信
手段とを備えることを特徴とするコンテンツ選択システ
ム。
【請求項２】上記クライアントは、上記入力情報送信
手段に入力された上記音声情報について音声認識を行う
音声認識手段を備え、上記入力情報送信手段は、この音声認識手段により音声
認識が行われた音声認識処理済みの音声情報を上記サー
バに送信し、上記コンテンツ選択用情報作成手段は、上記クライアン
トから受信した上記音声認識処理済みの音声情報と上記
作成情報とに基づいて、上記コンテンツ選択用情報を作
成することを特徴とする請求項１記載のコンテンツ選択
システム。
【請求項３】上記サーバは、上記クライアントからネ
ットワークを介して受信した上記音声情報について音声
認識を行う音声認識手段を備え、上記コンテンツ選択用情報作成手段は、この音声認識手
段により音声認識が行われた音声情報と上記作成情報と
に基づいて、上記コンテンツ選択用情報を作成すること
を特徴とする請求項１記載のコンテンツ選択システム。
【請求項４】上記作成情報記憶手段は、音声情報から
なる作成情報を記憶し、上記コンテンツ選択用情報作成手段は、音響的な特徴量
における上記音声情報と上記作成情報記憶手段に記憶さ
れた上記各作成情報との類似性を演算し、この類似性の
値が所定の閾値を越えた作成情報に対応するコンテンツ
の数が所定の数以上の場合には、上記音声情報とは異な
る音声情報を取得して類似性の演算を繰り返し、上記類
似性の値が所定の閾値を越えた上記作成情報に対応する
上記コンテンツの数が所定の数未満の場合には、上記類
似性の値が所定の閾値を越えた上記作成情報に対応する
上記コンテンツについてのコンテンツ選択用情報を作成
することを特徴とする請求項１記載のコンテンツ選択シ
ステム。
【請求項５】上記コンテンツ選択用情報作成手段は、
音響的な特徴量における上記音声情報と上記作成情報記
憶手段に記憶された上記各作成情報との類似性を演算
し、この類似性の値が所定の閾値を越えた作成情報に対
応するコンテンツの数が所定の数以上の場合には、上記
各作成情報の範疇ごとのばらつきを演算し、このばらつ
きが最も大きい範疇の作成情報に基づいてコンテンツ選
択用情報を作成し、上記類似性の値が所定の閾値を越え
た上記作成情報に対応する上記コンテンツの数が所定の
数未満の場合には、上記類似性の値が所定の閾値を越え
た上記作成情報に対応する上記コンテンツについてのコ
ンテンツ選択用情報を作成することを特徴とする請求項
１記載のコンテンツ選択システム。
【請求項６】上記音声認識手段は、上記音声情報につ
いての音声認識が正確に行われたのか否かを判定する判
定手段を有し、この判定手段により正確に音声認識が行
われたと判定された場合には、上記音声認識処理済みの
音声情報を出力し、上記判定手段により正確に音声認識
が行われなかったと判定された場合には、再度上記入力
情報送信手段に入力された音声情報について音声認識を
行って上記音声認識処理済みの音声情報を出力し、上記入力情報送信手段は、上記音声認識手段により音声
認識が行われた音声認識処理済みの音声情報を上記サー
バに送信し、上記コンテンツ選択用情報作成手段は、上記クライアン
トから受信した上記音声認識処理済みの音声情報と上記
作成情報とに基づいて、上記コンテンツ選択用情報を作
成することを特徴とする請求項２記載のコンテンツ選択
システム。
【請求項７】上記音声認識手段は、上記音声情報につ
いての音声認識が正確に行われたのか否かを判定する判
定手段を有し、この判定手段により正確に音声認識が行
われたと判定された場合には、上記音声認識処理済みの
音声情報を出力し、上記判定手段により正確に音声認識
が行われなかったと判定された場合には、再度上記クラ
イアントからネットワークを介して受信した音声情報に
ついて音声認識を行って上記音声認識処理済みの音声情
報を出力し、上記コンテンツ選択用情報作成手段は、上記音声認識手
段により音声認識が行われた音声情報と上記作成情報と
に基づいて、上記コンテンツ選択用情報を作成すること
を特徴とする請求項３記載のコンテンツ選択システム。
【請求項８】サーバからネットワークを介して送信さ
れたコンテンツを選択させるためのコンテンツ選択用情
報を出力するコンテンツ選択クライアントにおいて、入力された音声情報を上記ネットワークを介して上記サ
ーバに送信する入力情報送信手段と、上記サーバから上記ネットワークを介して上記コンテン
ツ選択用情報を受信して出力する出力手段とを備えるこ
とを特徴とするコンテンツ選択クライアント。
【請求項９】上記入力情報送信手段は、入力された上
記音声情報について音声認識を行う音声認識手段を備
え、この音声認識手段により音声認識が行われた音声認
識処理済みの音声情報を上記サーバに送信することを特
徴とする請求項８記載のコンテンツ選択クライアント。
【請求項１０】各コンテンツに関する１又は２以上の
作成情報を各コンテンツごとに記憶する作成情報記憶手
段と、クライアントからネットワークを介して受信した音声情
報と上記作成情報とに基づいて上記コンテンツを選択す
るためのコンテンツ選択用情報を作成するコンテンツ選
択用情報作成手段と、このコンテンツ選択用情報作成手段により作成された上
記コンテンツ選択用情報を上記クライアントにネットワ
ークを介して送信するコンテンツ選択用情報送信手段と
を備えることを特徴とするコンテンツ選択サーバ。
【請求項１１】上記クライアントからネットワークを
介して受信した上記音声情報について音声認識を行う音
声認識手段を備え、上記コンテンツ選択用情報作成手段は、この音声認識手
段により音声認識が行われた音声情報と上記作成情報と
に基づいて、上記コンテンツ選択用情報を作成すること
を特徴とする請求項１０記載のコンテンツ選択サーバ。
【請求項１２】サーバは、各コンテンツに関する１又
は２以上の作成情報をこの各コンテンツごとに記憶し、クライアントは、入力された音声情報をネットワークを
介して上記サーバに送信し、上記サーバは、上記クライアントから上記ネットワーク
を介して受信した音声情報と上記作成情報とに基づいて
上記コンテンツを選択するためのコンテンツ選択用情報
を作成し、この作成されたコンテンツ選択用情報を上記
クライアントにネットワークを介して送信し、上記クライアントは、上記サーバから上記ネットワーク
を介して上記コンテンツ選択用情報を受信し、このコン
テンツ選択用情報に基づいて選択することを要求するコ
ンテンツ選択要求情報を出力することを特徴とするコン
テンツ選択方法。