JP2022139053A

JP2022139053A - 検索支援サーバ、検索支援方法及びコンピュータプログラム

Info

Publication number: JP2022139053A
Application number: JP2021039268A
Authority: JP
Inventors: 清幸鈴木; Kiyoyuki Suzuki; 克利大川; Katsutoshi Okawa; 竜平市川; Ryuhei Ichikawa
Original assignee: Advanced Media Inc
Current assignee: Advanced Media Inc
Priority date: 2021-03-11
Filing date: 2021-03-11
Publication date: 2022-09-26
Anticipated expiration: 2041-03-11
Also published as: JP7297266B2

Abstract

【課題】ユーザが自己の目的に応じて絞り込んだガイドデータ通りに発話又は選択する限り、コンテンツ提供者がユーザに提供したい動画コンテンツの特定部分へ確実に誘導することが可能な検索支援サーバ、検索支援方法及びコンピュータプログラムを提供する。【解決手段】動画コンテンツの特定部分を示すタグ情報を選択するための発話を誘導するガイドデータを選択的に表示するサイネージウィンドウと、ガイドデータの中から、表示するべきガイドデータをユーザの発話により絞り込むことが可能なスピーチウィンドウとを端末装置に表示させる。サイネージウィンドウ及び／又はスピーチウィンドウに表示されたタグ情報のユーザによる発話を受け付けて、表示されるタグ情報を絞り込み、絞り込まれたタグ情報の選択を受け付けることにより、選択を受け付けたタグ情報に対応する動画コンテンツの特定部分を端末装置において再生させる。【選択図】図４

Description

本発明は、Ｗｅｂサイトにおいてコンテンツ提供者が提供する多数の動画コンテンツの中から、検索主体であるユーザが、希望する動画コンテンツの特定のシーンを、発話により絞り込むことで確実に表示することが可能な検索支援サーバ、検索支援方法及びコンピュータプログラムに関する。

Ｗｅｂサイトには様々な情報が存在する。現状では、Ｗｅｂサイトのトップページのアイコンのクリックやクリック可能な言葉による説明、Ｇｏｏｇｌｅ（Ｒ）、Ｙａｈｏｏ（Ｒ）等の検索エンジンを利用した検索窓を使うことで、ユーザが希望する内容を含むと考えられるＷｅｂページへのアドレス、あるいは動画コンテンツそのものを抽出してユーザが視認可能な表示装置において再生している。

また、ユーザの発話により検索キーの入力を受け付ける場合、Ｇｏｏｇｌｅ（Ｒ）、Ｍｉｃｒｏｓｏｆｔ（Ｒ）等が提供する音声認識エンジンを使用して、ユーザによる発話を認識している。これらの商用の音声認識エンジンは、広汎に発話のデータを収集し、機械学習、あるいは深層学習により生成された汎用型の音声認識エンジンとして提供されている。

したがって、ユーザの発話を音声認識する場合に、コンテンツ提供者がユーザに対して提供を意図する検索キーを正しく認識することができない場合が生じるおそれがあった。そこで、例えば特許文献１には、複数の言語モデルを用いることで音声認識精度を高めている音声理解装置が開示されている。

また特許文献２には、ユーザに対して、番組やシーンを検索するためのキーとなる情報を画面上に表示しておき、ユーザの選択を受け付けるデジタル放送受信装置が開示されている。特許文献２では、コンテンツホルダが、検索情報を含むメタデータを作成して記憶しておき、該検索情報で検索される動画のシーン情報の一覧をユーザに表示することにより、ユーザが所望のシーンを選択して再生することが可能となっている。

特開２０１０－１７０１３７号公報特開２００９－０５５６４３号公報

特許文献１では、複数の音声認識エンジンを用いて並列に処理し、得られた複数の認識結果に基づく言語理解エンジンの処理結果を統合処理している。しかし、複数の認識結果及び言語理解処理結果の統合処理には相当の時間を要するだけではなく、統合処理後の認識結果の確度を保証することができないため現実的ではない。したがって、ユーザの発話によって、短時間で正しい検索キーを取得することができる保証がないという問題点があった。

また、特許文献２では、コンテンツホルダの作成する検索情報を含むメタデータが一覧表示される。しかし、特許文献２では表示されているメタデータの中から選択する必要があるのに対して、メタデータの表示領域には物理的な制約があることから表示可能なメタデータ数に制限がある。したがって、ユーザ所望のシーンに紐づいたメタデータが表示されないケースも想定され、ユーザが所望のシーンを再生するには、結局所望のシーンを再生しながら探し出す必要があり、相当の手間と時間とを要するという問題点があった。また、一覧表示させるメタデータを作成するのにも相当の手間と時間とを要し、充分な数のメタデータを表示することができないので、メタデータの指示により再生されるシーンが必ずしもユーザの所望のシーンを再生しているという保証もない。

本発明は、上記事情に鑑みてなされたものであり、動画コンテンツの特定部分（シーン）を示すタグ情報を選択するための発話を誘導するガイドデータを選択的に表示するサイネージウィンドウと、全てのガイドデータを発話で絞り込んで表示することが可能なスピーチウィンドウを用いることで、ユーザが自己の目的に応じて絞り込んだガイドデータ通りに発話又は選択する限り、コンテンツ提供者がユーザに提供したい動画コンテンツの特定部分へ確実に誘導することが可能な検索支援サーバ、検索支援方法及びコンピュータプログラムを提供することを目的とする。

上記目的を達成するために本発明に係る検索支援サーバは、Ｗｅｂサイト上に公開される動画コンテンツの検索を支援する検索支援サーバであって、動画コンテンツの特定部分を示すタグ情報を選択するための発話を誘導するガイドデータを選択的に表示するサイネージウィンドウと、前記ガイドデータの中から、表示するべきガイドデータをユーザの発話により絞り込むことが可能なスピーチウィンドウとをデータ通信することが可能に接続されている端末装置に表示させ、前記サイネージウィンドウ及び／又は前記スピーチウィンドウに表示された前記タグ情報のユーザによる発話を受け付けて、表示される前記タグ情報を絞り込み、絞り込まれた前記タグ情報の選択を受け付けることにより、選択を受け付けた前記タグ情報に対応する前記動画コンテンツの特定部分を前記端末装置において再生させることを特徴とする。

また、本発明に係る検索支援サーバは、前記タグ情報は、少なくとも前記動画コンテンツの特定部分を識別するタグ名称、前記タグ名称の内容を説明する単文又は単語群からなるテキストデータ及び前記タグ名称の属性を示す属性情報で構成されていることが好ましい。

また、本発明に係る検索支援サーバは、前記サイネージウィンドウ及び／又は前記スピーチウィンドウに表示するガイドデータの基礎となるサーチデータを生成するサーチデータ生成手段を備え、該サーチデータ生成手段は、前記動画コンテンツの内容に基づいて、内容を示す単文又は単語群を抽出して、抽出された単文又は単語群の選択を受け付けた場合に対応する前記動画コンテンツを再生する抽出・再生手段と、再生される前記動画コンテンツに基づいて、前記タグ名称及び前記タグ名称の内容を示す単文又は単語群の入力を受け付けるタグ入力受付手段と、再生される前記動画コンテンツに基づいて、前記動画コンテンツの特定部分の再生開始時間及び再生終了時間を含むポインタ情報を探索するポインタ探索手段と、入力を受け付けた前記タグ名称ごとに、探索された前記ポインタ情報の割り付けを受け付けるポインタ割付受付手段と、入力を受け付けた前記タグ名称ごとに、検索時に発話可能な前記属性情報の入力を受け付ける属性情報受付手段とを備えることが好ましい。

また、本発明に係る検索支援サーバは、前記抽出・再生手段は、前記動画コンテンツを精査して、含まれている音声を単文又は単語群として認識してテキストデータとして出力する音声文字起し手段と、出力されたテキストデータの選択を受け付けた場合、選択を受け付けたテキストデータに対応する前記動画コンテンツを再生するコンテンツ再生手段とを備えることが好ましい。

また、本発明に係る検索支援サーバは、前記ポインタ割付手段は、探索された前記ポインタ情報に含まれる、前記動画コンテンツの特定部分の再生開始時間及び再生終了時間について、前記動画コンテンツを再生しながら更新を受け付けるポインタ更新受付手段を備えることが好ましい。

また、本発明に係る検索支援サーバは、前記ガイドデータは、前記サーチデータに含まれる前記タグ情報を、前記サーチデータを識別するサーチデータ識別情報と対応付けて生成されることが好ましい。

また、本発明に係る検索支援サーバは、前記スピーチウィンドウに表示され、ユーザによる選択を受け付けることが可能な前記タグ名称を絞り込むために、ユーザにより発話された音声データの入力を受け付ける発話受付手段と、入力を受け付けた音声データをテキストデータに変換し、変換したテキストデータの前記ガイドデータの前記タグ名称及び前記タグ名称の内容を示す単文又は単語群に対する一致度を算出し、算出された一致度が最大であるタグ名称を特定するとともに、前記一致度が所定値より大きい場合に前記タグ名称に対応する前記コンテンツの特定部分を表示するメタタグ音声認識手段と、入力を受け付けた音声データに基づいて、前記ガイドデータの前記タグ情報のうち、前記属性情報に一致するものを抽出し、一致する一又は複数の属性情報の論理積による前記ガイドデータの絞り込みを行い、絞り込まれた前記ガイドデータの前記タグ名称及び前記属性情報を出力する絞り込み音声認識手段とを備え、前記メタタグ音声認識手段及び前記絞り込み音声認識手段を並行して実行することが好ましい。

また、本発明に係る検索支援サーバは、前記メタタグ音声認識手段は、変換されたテキストデータと、すべての前記タグ名称及び前記タグ名称の内容を示す単文又は単語群で形成された第一のデータセットとの一致度を算出し、前記絞り込み音声認識手段は、すべてのタグ名称に対応付けられている前記属性情報で形成された第二のデータセットを音声認識フィルタとして用いた認識結果として抽出された前記属性情報の論理積により前記ガイドデータを絞り込むことが好ましい。

また、本発明に係る検索支援サーバは、前記絞り込み音声認識手段は、絞り込まれたガイドデータの前記属性情報により前記第二のデータセットを更新することが好ましい。

次に、上記目的を達成するために本発明に係る検索支援方法は、Ｗｅｂサイト上に公開される動画コンテンツの検索を支援する検索支援サーバで実行することが可能な検索支援方法であって、前記検索支援サーバが、動画コンテンツの特定部分を示すタグ情報を選択するための発話を誘導するガイドデータを選択的に表示するサイネージウィンドウと、前記ガイドデータの中から、表示するべきガイドデータをユーザの発話により絞り込むことが可能なスピーチウィンドウとをデータ通信することが可能に接続されている端末装置に表示させる工程と、前記サイネージウィンドウ及び／又は前記スピーチウィンドウに表示された前記タグ情報のユーザによる発話を受け付けて、表示される前記タグ情報を絞り込み、絞り込まれた前記タグ情報の選択を受け付けることにより、選択を受け付けた前記タグ情報に対応する前記動画コンテンツの特定部分を前記端末装置において再生させる工程とを実行することを特徴とする。

また、本発明に係る検索支援方法は、前記タグ情報は、少なくとも前記動画コンテンツの特定部分を識別するタグ名称、前記タグ名称の内容を説明する単文又は単語群からなるテキストデータ及び前記タグ名称の属性を示す属性情報で構成されていることが好ましい。

また、本発明に係る検索支援方法は、前記検索支援サーバが、前記動画コンテンツの内容に基づいて、内容を示す単文又は単語群を抽出して、抽出された単文又は単語群の選択を受け付けた場合に対応する前記動画コンテンツを再生する工程と、再生される前記動画コンテンツに基づいて、前記タグ名称及び前記タグ名称の内容を示す単文又は単語群の入力を受け付ける工程と、再生される前記動画コンテンツに基づいて、前記動画コンテンツの特定部分の再生開始時間及び再生終了時間を含むポインタ情報を探索する工程と、入力を受け付けた前記タグ名称ごとに、探索された前記ポインタ情報の割り付けを受け付ける工程と、入力を受け付けた前記タグ名称ごとに、検索時に発話可能な前記属性情報の入力を受け付ける工程とを実行し、前記サイネージウィンドウ及び／又は前記スピーチウィンドウに表示するガイドデータの基礎となるサーチデータを生成することが好ましい。

また、本発明に係る検索支援方法は、前記検索支援サーバが、前記動画コンテンツを精査して、含まれている音声を単文又は単語群として認識してテキストデータとして出力する工程と、出力されたテキストデータの選択を受け付けた場合、選択を受け付けたテキストデータに対応する前記動画コンテンツを再生する工程とを実行することが好ましい。

また、本発明に係る検索支援方法は、前記検索支援サーバが、探索された前記ポインタ情報に含まれる、前記動画コンテンツの特定部分の再生開始時間及び再生終了時間について、前記動画コンテンツを再生しながら更新を受け付ける工程を実行することが好ましい。

また、本発明に係る検索支援方法は、前記ガイドデータは、前記サーチデータに含まれる前記タグ情報を、前記サーチデータを識別するサーチデータ識別情報と対応付けて生成されることが好ましい。

また、本発明に係る検索支援方法は、前記スピーチウィンドウに表示され、ユーザによる選択を受け付けることが可能な前記タグ名称を絞り込むために、前記検索支援サーバが、ユーザにより発話された音声データの入力を受け付ける工程を実行し、前記検索支援サーバが、入力を受け付けた音声データをテキストデータに変換し、変換したテキストデータの前記ガイドデータの前記タグ名称及び前記タグ名称の内容を示す単文又は単語群に対する一致度を算出し、算出された一致度が最大であるタグ名称を特定するとともに、前記一致度が所定値より大きい場合に前記タグ名称に対応する前記コンテンツの特定部分を表示する工程、及び入力を受け付けた音声データに基づいて、前記ガイドデータの前記タグ情報のうち、前記属性情報に一致するものを抽出し、一致する一又は複数の属性情報の論理積による前記ガイドデータの絞り込みを行い、絞り込まれた前記ガイドデータの前記タグ名称及び前記属性情報を出力する工程を、並行して実行することが好ましい。

また、本発明に係る検索支援方法は、前記検索支援サーバが、変換されたテキストデータと、すべての前記タグ名称及び前記タグ名称の内容を示す単文又は単語群で形成された第一のデータセットとの一致度を算出する工程と、すべてのタグ名称に対応付けられている前記属性情報で形成された第二のデータセットを音声認識フィルタとして用いた認識結果として抽出された前記属性情報の論理積により前記ガイドデータを絞り込む工程とを実行することが好ましい。

また、本発明に係る検索支援方法は、前記検索支援サーバが、絞り込まれたガイドデータの前記属性情報により前記第二のデータセットを更新する工程を実行することが好ましい。

次に、上記目的を達成するために本発明に係るコンピュータプログラムは、Ｗｅｂサイト上に公開される動画コンテンツの検索を支援する検索支援サーバで実行することが可能なコンピュータプログラムであって、前記検索支援サーバを、動画コンテンツの特定部分を示すタグ情報を選択するための発話を誘導するガイドデータを選択的に表示するサイネージウィンドウと、前記ガイドデータの中から、表示するべきガイドデータをユーザの発話により絞り込むことが可能なスピーチウィンドウとをデータ通信することが可能に接続されている端末装置に表示させる手段、及び前記サイネージウィンドウ及び／又は前記スピーチウィンドウに表示された前記タグ情報のユーザによる発話を受け付けて、表示される前記タグ情報を絞り込み、絞り込まれた前記タグ情報の選択を受け付けることにより、選択を受け付けた前記タグ情報に対応する前記動画コンテンツの特定部分を前記端末装置において再生させる手段として機能させることを特徴とする。

また、本発明に係るコンピュータプログラムは、前記タグ情報は、少なくとも前記動画コンテンツの特定部分を識別するタグ名称、前記タグ名称の内容を説明する単文又は単語群からなるテキストデータ及び前記タグ名称の属性を示す属性情報で構成されていることが好ましい。

また、本発明に係るコンピュータプログラムは、前記検索支援サーバを、前記サイネージウィンドウ及び／又は前記スピーチウィンドウに表示するガイドデータの基礎となるサーチデータを生成するサーチデータ生成手段として機能させ、該サーチデータ生成手段を、前記動画コンテンツの内容に基づいて、内容を示す単文又は単語群を抽出して、抽出された単文又は単語群の選択を受け付けた場合に対応する前記動画コンテンツを再生する抽出・再生手段、再生される前記動画コンテンツに基づいて、前記タグ名称及び前記タグ名称の内容を示す単文又は単語群の入力を受け付けるタグ入力受付手段、再生される前記動画コンテンツに基づいて、前記動画コンテンツの特定部分の再生開始時間及び再生終了時間を含むポインタ情報を探索するポインタ探索手段、入力を受け付けた前記タグ名称ごとに、探索された前記ポインタ情報の割り付けを受け付けるポインタ割付受付手段、及び入力を受け付けた前記タグ名称ごとに、検索時に発話可能な前記属性情報の入力を受け付ける属性情報受付手段として機能させることが好ましい。

また、本発明に係るコンピュータプログラムは、前記抽出・再生手段を、前記動画コンテンツを精査して、含まれている音声を単文又は単語群として認識してテキストデータとして出力する音声文字起し手段、及び出力されたテキストデータの選択を受け付けた場合、選択を受け付けたテキストデータに対応する前記動画コンテンツを再生するコンテンツ再生手段として機能させることが好ましい。

また、本発明に係るコンピュータプログラムは、前記ポインタ割付手段を、探索された前記ポインタ情報に含まれる、前記動画コンテンツの特定部分の再生開始時間及び再生終了時間について、前記動画コンテンツを再生しながら更新を受け付けるポインタ更新受付手段として機能させることが好ましい。

また、本発明に係るコンピュータプログラムは、前記ガイドデータは、前記サーチデータに含まれる前記タグ情報を、前記サーチデータを識別するサーチデータ識別情報と対応付けて生成されることが好ましい。

また、本発明に係るコンピュータプログラムは、前記スピーチウィンドウに表示され、ユーザによる選択を受け付けることが可能な前記タグ名称を絞り込むために、前記検索支援サーバを、ユーザにより発話された音声データの入力を受け付ける発話受付手段として機能させ、前記検索支援サーバを、入力を受け付けた音声データをテキストデータに変換し、変換したテキストデータの前記ガイドデータの前記タグ名称及び前記タグ名称の内容を示す単文又は単語群に対する一致度を算出し、算出された一致度が最大であるタグ名称を特定するとともに、前記一致度が所定値より大きい場合に前記タグ名称に対応する前記コンテンツの特定部分を表示するメタタグ音声認識手段、及び入力を受け付けた音声データに基づいて、前記ガイドデータの前記タグ情報のうち、前記属性情報に一致するものを抽出し、一致する一又は複数の属性情報の論理積による前記ガイドデータの絞り込みを行い、絞り込まれた前記ガイドデータの前記タグ名称及び前記属性情報を出力する絞り込み音声認識手段として、並行して機能させることが好ましい。

また、本発明に係るコンピュータプログラムは、前記メタタグ音声認識手段を、変換されたテキストデータと、すべての前記タグ名称及び前記タグ名称の内容を示す単文又は単語群で形成された第一のデータセットとの一致度を算出する手段として機能させ、前記絞り込み音声認識手段を、すべてのタグ名称に対応付けられている前記属性情報で形成された第二のデータセットを音声認識フィルタとして用いた認識結果として抽出された前記属性情報の論理積により前記ガイドデータを絞り込む手段として機能させることが好ましい。

また、本発明に係るコンピュータプログラムは、前記絞り込み音声認識手段を、絞り込まれたガイドデータの前記属性情報により前記第二のデータセットを更新する手段として機能させることが好ましい。

本発明によれば、Ｗｅｂサイト上に公開されている多数の動画コンテンツの中から、動画コンテンツを提供するコンテンツ提供者が、提供する動画コンテンツへユーザを誘導しやすいガイドデータをスピーチウィンドウやサイネージウィンドウに表示することができるとともに、ユーザ自らの意思で選択対象となるガイドデータを絞り込むことができるので、個々のユーザが表示されているガイドデータ通りに発話あるいは選択することにより、簡便にしかも迅速にコンテンツ提供者が提供する動画コンテンツをユーザの意向に沿って表示・再生することが可能となる。

本発明の実施の形態に係る音声検索システムの構成を模式的に示すブロック図である。本発明の実施の形態に係る検索支援サーバの構成を模式的に示すブロック図である。本発明の実施の形態に係る端末装置の構成を模式的に示すブロック図である。本発明の実施の形態に係る検索支援サーバのサーチデータ生成処理の機能ブロック図である。、本発明の実施の形態に係る検索支援サーバが、コンテンツ提供者が使用する端末装置に表示させる入力受付画面の例示図である。本発明の実施の形態に係る検索支援サーバで生成されるサーチデータ及びガイドデータの例示図である。本発明の実施の形態に係る検索支援サーバのサーチデータ及びガイドデータの例示図である。本発明の実施の形態に係る検索支援サーバのサーチデータ及びガイドデータの他の例示図である。本発明の実施の形態に係る検索支援サーバが、ユーザが使用する端末装置上で表示する入力受付画面の例示図である。本発明の実施の形態に係る検索支援サーバが、ユーザが使用する端末装置に表示させるスピーチウィンドウの例示図である。本発明の実施の形態に係る検索支援サーバのＣＰＵのコンテンツ提供者の設定処理手順を示すフローチャートである。本発明の実施の形態に係る検索支援サーバのユーザによる発話の音声認識処理の機能ブロック図である。本発明の実施の形態に係る検索支援サーバのＣＰＵの音声認識処理の手順を示すフローチャートである。

以下、本発明の実施の形態に係る検索支援サーバについて、図面を参照して説明する。以下の実施の形態は、特許請求の範囲に記載された発明を限定するものではなく、実施の形態の中で説明されている特徴的事項の組み合わせの全てが解決手段の必須事項であるとは限らないことは言うまでもない。

また、本発明は多くの異なる態様にて実施することが可能であり、実施の形態の記載内容に限定して解釈されるべきものではない。実施の形態を通じて同じ要素には同一の符号を付している。

以下の実施の形態では、コンピュータシステムにコンピュータプログラムを導入した音声検索システムとして説明するが、当業者であれば明らかな通り、本発明はその一部をコンピュータで実行することが可能なコンピュータプログラムとして実施することができる。したがって、本発明は、動画コンテンツの特定部分を示すタグ情報を選択するための発話を誘導するガイドデータを選択的に表示するサイネージウィンドウと、全てのガイドデータを発話で絞り込んで表示することが可能なスピーチウィンドウを用いることで、ユーザが自己の目的に応じて絞り込んだガイドデータ通りに発話又は選択する限り、コンテンツ提供者がユーザに提供したい動画コンテンツの特定部分へ確実に誘導することが可能な検索支援サーバというハードウェアとしての実施の形態、ソフトウェアとしての実施の形態、又はソフトウェアとハードウェアとの組み合わせの実施の形態をとることができる。コンピュータプログラムは、ハードディスク、ＤＶＤ、ＣＤ、光記憶装置、磁気記憶装置等の任意のコンピュータで読み取ることが可能な記録媒体に記録することができる。

本発明の実施の形態によれば、Ｗｅｂサイト上に公開されている多数の動画コンテンツの中から、動画コンテンツを提供するコンテンツ提供者が、提供する動画コンテンツへユーザを誘導しやすいガイドデータをスピーチウィンドウやサイネージウィンドウに表示することができるとともに、ユーザ自らの意思で選択対象となるガイドデータを絞り込むことができるので、個々のユーザが表示されているガイドデータ通りに発話あるいは選択することにより、簡便にしかも迅速にコンテンツ提供者が提供する動画コンテンツをユーザの意向に沿って表示・再生することが可能となる。

図１は、本発明の実施の形態に係る音声検索システムの構成を模式的に示すブロック図である。本実施の形態に係る音声検索システムは、コンテンツ提供者が使用する端末装置１ａと、コンテンツや動画コンテンツを検索するユーザが使用する端末装置１ｂと、端末装置１ａ及び１ｂとデータ通信することが可能にインターネット等のネットワーク網２を介して接続されている検索支援サーバ３とで構成されている。端末装置１ａ、１ｂは、マイクやスピーカを接続してある据え置き型のＰＣに限定されるものではなく、マイクやスピーカを内蔵しているスマートホン、タブレット等の携帯端末であっても良い。

図２は、本発明の実施の形態に係る検索支援サーバ３の構成を模式的に示すブロック図である。本実施の形態に係る検索支援サーバ３は、少なくともＣＰＵ（中央演算装置）３１、メモリ３２、記憶装置３３、Ｉ／Ｏインタフェース３４、ビデオインタフェース３５、可搬型メモリドライブ３６、通信インタフェース３７及び上述したハードウェアを接続する内部バス３８で構成されている。

ＣＰＵ３１は、内部バス３８を介して検索支援サーバ３の上述したようなハードウェア各部と接続されており、上述したハードウェア各部の動作を制御するとともに、記憶装置３３に記憶されているコンピュータプログラム１００に従って、種々のソフトウェア的機能を実行する。メモリ３２は、ＳＲＡＭ、ＳＤＲＡＭ等の揮発性メモリで構成され、コンピュータプログラム１００の実行時にロードモジュールが展開され、コンピュータプログラム１００の実行時に発生する一時的なデータ等を記憶する。

記憶装置３３は、内蔵される固定型記憶装置（ハードディスク）、ＲＯＭ等で構成されている。記憶装置３３に記憶されたコンピュータプログラム１００は、プログラム及びデータ等の情報を記録したＤＶＤ、ＣＤ－ＲＯＭ、ＵＳＢメモリ、ＳＤカード等の可搬型記録媒体９０から、可搬型メモリドライブ３６によりダウンロードされ、実行時には記憶装置３３からメモリ３２へ展開して実行される。もちろん、通信インタフェース３７を介して接続されている外部コンピュータからダウンロードされたコンピュータプログラムであっても良い。

記憶装置３３は、サーチデータ記憶部３３１及びガイドデータ記憶部３３２とを備えている。サーチデータ記憶部３３１は、コンテンツ提供者が、提供するコンテンツに対してユーザがアクセス可能なサーチデータ（コンテンツの特定部分を識別するタグ名称、タグ名称の内容を説明する単文又は単語群からなるテキストデータ及びタグ名称の属性を示す属性情報）をポインタ情報（動画コンテンツの場合には、加えてタイムスタンプ情報）に対応付けて記憶する。なお、ポインタ情報とは、コンテンツにアクセスすることが可能なコンテンツの存在位置を示す情報を広く意味している。コンテンツがＷｅｂページである場合にはＵＲＬがポインタ情報に相当し、動画コンテンツである場合には、再生可能なＵＲＬだけではなく、動画コンテンツの再生を開始するタイムスタンプ情報、再生を終了するタイムスタンプ情報もポインタ情報に含まれる。

ガイドデータ記憶部３３２は、ユーザが検索するための発話あるいはクリック、タッチ等の選択操作を促すために、サーチデータに基づいて生成されるガイドデータを記憶する。ガイドデータは、サーチデータの中から、コンテンツの特定部分を識別するタグ名称、タグ名称の内容を説明する単文又は単語群からなるテキストデータ及びタグ名称の属性を示す属性情報を抽出して、対応するサーチデータの識別情報に対応付けて生成される。ガイドデータを表示するスピーチウィンドウに一覧表示された状態で、ユーザの発話により表示されるガイドデータが絞り込まれる。ユーザが絞り込まれて表示されているガイドデータの中からいずれかのタグ名称を選択することで、選択されたタグ名称に対応付けられたサーチデータで特定されるコンテンツ（動画コンテンツ含む）を表示（あるいは再生）することができる。

通信インタフェース３７は内部バス３８に接続されており、インターネット、ＬＡＮ、ＷＡＮ等の外部のネットワーク網２に接続されることにより、外部コンピュータ等とデータ送受信を行うことが可能となっている。

Ｉ／Ｏインタフェース３４は、入力装置であるキーボード４１、マウス４２と接続され、データの入力を行う。本実施の形態では、実際に音声を入力するのは、コンテンツ提供者又はユーザが使用している端末装置１ａ、１ｂ（スマートフォン、タブレット等）であり、入力された音声データを通信インタフェース３７を介して受信する。もちろん、検索支援サーバ３にマイク、スピーカ等を直接接続していても良い。

ビデオインタフェース３５は、ＣＲＴディスプレイ、液晶ディスプレイ等の表示装置４３と接続されている。本実施の形態では、実際に画像を出力表示するのは、コンテンツ提供者又はユーザが使用している端末装置１ａ、１ｂ（スマートフォン、タブレット等）であり、検索支援サーバ３は、端末装置１ａ、１ｂへ（音声データを含む）画像データ等を通信インタフェース３７を介して送信する。

図３は、本発明の実施の形態に係る端末装置１（１ａ、１ｂ共通）の構成を模式的に示すブロック図である。本実施の形態に係る端末装置１は、少なくともＣＰＵ（中央演算装置）１１、メモリ１２、記憶装置１３、Ｉ／Ｏインタフェース１４、ビデオインタフェース１５、可搬型メモリドライブ１６、通信インタフェース１７及び上述したハードウェアを接続する内部バス１８で構成されている。

ＣＰＵ１１は、内部バス１８を介して端末装置１の上述したようなハードウェア各部と接続されており、上述したハードウェア各部の動作を制御するとともに、記憶装置１３に記憶されているコンピュータプログラム１０１に従って、種々のソフトウェア的機能を実行する。メモリ１２は、ＳＲＡＭ、ＳＤＲＡＭ等の揮発性メモリで構成され、コンピュータプログラム１０１の実行時にロードモジュールが展開され、コンピュータプログラム１０１の実行時に発生する一時的なデータ等を記憶する。

記憶装置１３は、内蔵される固定型記憶装置（ハードディスク）、ＲＯＭ等で構成されている。記憶装置１３に記憶されたコンピュータプログラム１０１は、通信インタフェース１７を介して接続されている外部コンピュータからダウンロードされ、実行時には記憶装置１３からメモリ１２へ展開して実行される。もちろん、プログラム及びデータ等の情報を記録したＳＤカード等の可搬型記録媒体９１から可搬型メモリドライブ１６を介してダウンロードされたコンピュータプログラムであっても良い。

通信インタフェース１７は内部バス１８に接続されており、インターネット、ＬＡＮ、ＷＡＮ等の外部のネットワーク網２に接続されることにより、外部コンピュータ等とデータ送受信を行うことが可能となっている。

Ｉ／Ｏインタフェース１４は、キーボード２０３、マウス２０４等の入力装置の他、マイク２０１等の音声入力装置、スピーカ２０２等の音声出力装置と接続され、データの入出力を行う。通信インタフェース１７を介してスマートホン等を接続し、音声入力装置及び音声出力装置を代用しても良い。

ビデオインタフェース１５は、表示装置２０５と接続されており、検索支援サーバ３から送信されてくる入出力用の画像をブラウザ等で表示する。検索されたコンテンツや動画コンテンツは、表示装置２０５に表示しても良いし、別途ネットワーク網を介してデータ通信することが可能に接続されている外部のコンピュータで表示しても良い。

以下、上述した構成の検索支援サーバ３の動作について説明する。

図４は、本発明の実施の形態に係る検索支援サーバ３のサーチデータ生成処理の機能ブロック図である。図４では、コンテンツ提供者がサーチデータを生成し、ガイドデータを生成して、サイネージウィンドウ及び／又はスピーチウィンドウに表示する手順について説明する。

図４において、サーチデータ生成部４０１は、サイネージウィンドウ及び／又はスピーチウィンドウに表示するガイドデータの基礎となるサーチデータを生成する。サーチデータ生成部４０１は、抽出・再生部４０２、タグ入力受付部４０３、ポインタ探索部４０４、ポインタ割付受付部４０５、及び属性情報受付部４０６を備えている。

抽出・再生部４０２は、動画コンテンツの内容に基づいて、内容を示す単文又は単語群を抽出して、抽出された単文又は単語群の選択を受け付けた場合に対応する動画コンテンツを再生する。より具体的には、抽出・再生部４０２は、音声文字起し部４０２１と、動画コンテンツ表示部４０２２とを備えている。

音声文字起し部４０２１は、対象となる動画コンテンツの音声部分を抽出して書き起こし、適切な文節ごとのタイムスタンプ情報と対応付けたテキストデータとして出力する。出力されたテキストデータは、動画コンテンツに含まれている音声に基づいてタグ名称を生成する参考にすることができる。

動画コンテンツ再生部４０２２は、出力されたテキストデータの選択を受け付けた場合、選択を受け付けたテキストデータに対応する動画コンテンツの特定部分を再生する。タグ名称の候補の選択を受け付けた場合に、正しい動画コンテンツであるか否か、そしてタイムスタンプ情報を更新するために再生される。

なお、選択を受け付けたテキストデータ、ガイドデータ及び外部から取得したテキストデータを教師データとして学習し、音声文字起し部４０２１で使用する音声認識用の言語モデルを出力しても良い。学習方法としては、いわゆるＡIを含み、周知の学習方法であれば特に限定されるものではない。

以下、動画コンテンツの特定部分に対応付けられるタグ情報の入力を受け付ける。本実施の形態では、タグ情報とは、少なくとも動画コンテンツの特定部分を識別するタグ名称、タグ名称の内容を説明する単文又は単語群からなるテキストデータ及びタグ名称の属性を示す属性情報で構成されている。

タグ入力受付部４０３は、表示出力されたテキストデータ、あるいは再生している動画コンテンツの特定部分に基づいて、タグ名称及びタグ名称の内容を示す単文又は単語群の入力を受け付ける。

ポインタ探索部４０４は、再生されている動画コンテンツの特定部分に基づいて、動画コンテンツの特定部分を示すポインタ情報を探索する。探索されるポインタ情報は、既に対応付けられているＵＲＬだけではなく、再生開始タイミング及び再生終了タイミングに関するタイムスタンプ情報も探索される。

動画コンテンツの場合、自動的に割り付けられた特定部分が、コンテンツ提供者が本当に提供したい部分であるとは限らない。不要な部分が含まれたり、必要な部分なのに分断されたりしている可能性がある。そこで、後述する画面操作によって、ポインタ情報の更新を行うことができる。これにより、過不足なく所望の動画コンテンツを提供することができる。

ポインタ割付受付部４０５は、入力を受け付けたタグ名称ごとに、探索されたポインタ情報の割り付けを受け付ける。これにより、タグ名称の選択を受け付けることにより、割り付けられたポインタ情報に従って、動画コンテンツの特定部分を再生することができる。

属性情報受付部４０６は、入力を受け付けたタグ名称ごとに、検索時に発話可能な属性情報の入力を受け付ける。後述するように属性情報をユーザが発話することにより、タグ名称を絞り込むことができる。

ここで、属性情報としては、例えば「新着」、「動画」、「使い方」、「料金」、「医療」など、動画コンテンツを絞り込むのに役立つ情報であり、しかも発話しやすい言葉であれば特に限定されるものではない。

このようにタグ名称及びタグ名称の内容を示す単文又は単語群、属性情報の入力を受け付け、タグ情報としてポインタ情報に対応付けてサーチデータを生成する。ガイドデータ生成部４０７は、生成されたサーチデータに含まれるタグ情報を、サーチデータを識別するサーチデータ識別情報と対応付けて、ガイドデータを生成する。

図５は、本発明の実施の形態に係る検索支援サーバ３が、コンテンツ提供者が使用する端末装置１ａに表示させる入力受付画面の例示図である。図５に示す初期画面５０が、コンテンツ提供者の使用する端末装置１ａにポップアップ表示される。コンテンツ提供者は、ユーザに提供したい動画コンテンツを再生領域５１において再生しながら、「割付」ボタン５２を選択することによりタグ情報に動画コンテンツのシーンを割り付けることができる。

コンテンツ提供者による「割付」ボタン５２の選択を受け付けた場合、選択を受け付けた動画コンテンツの音声部分を音声認識してすべて書き起こし、単文又は単語群として抽出して、文節ごとに再生開始点を示すタイムスタンプ情報を割り付けたトランスクリプションを作成する。作成されたトランスクリプションは、目次表示領域５３に一覧表示、あるいは表示しきれない場合には、図５ではサーチデータ作成領域として使用されている共用ウインドウ６０に表示される。表示しきれない場合には、スクロール操作等ですべてのトランスクリプションを表示することができる。

これにより、共用ウインドウ６０にトランスクリプションとして表示されている動画コンテンツ中のシーンごとのタグ名称の候補の選択を受け付けた場合、対応付けられた動画コンテンツのシーンが再生される。

コンテンツ提供者は、動画コンテンツを再生しながら、所望の再生開始タイミングにおいて「マーク入力」ボタン６１を選択する。「マーク入力」ボタン６１の選択を受け付けた場合、仮のタグ情報が再生開始タイムスタンプをポインタ情報として作成される。仮のタグ情報は、動画コンテンツの再生時に随時生成して記憶することができる。

次に、コンテンツ提供者による「タグ入力」ボタン５４の選択を受け付ける。「タグ入力」ボタン５４の選択を受け付けた場合、一覧表示されている仮のタグ情報の選択を受け付けることで、共用ウインドウ６０にタグ名称入力領域５５、メタタグ入力領域５６等を含むサーチデータ作成領域６０が表示され、タグ情報の入力を受け付ける。

仮のタグ情報の一覧表示は、「タグ入力終了」ボタン５９の選択を受け付けることにより行われる。仮のタグ情報の選択を受け付けてタグ情報の入力を行うことで、すべての仮のタグ情報に対してサーチデータを生成することができる。なお、属性情報入力領域は図５には図示されていないが、キーインできる入力領域あるいは選択ボタンを配して表示させて、入力を受け付ければ良い。

本実施の形態で特徴的なのは、コンテンツ提供者による発話でタグ情報の入力を受け付ける点と、「時間メータ」の存在である。例えばコンテンツ提供者が「時間メータ」と発話した場合、時間メータ５７によりタグ情報と対応付けられている動画コンテンツの特定部分を更新することが可能なポインタ更新受付手段を備えている。

具体的には、共用ウインドウ６０に表示されたサーチデータ作成領域に更新するタグ情報の作成画面を表示し、「時間メータ」との発話を受け付けた場合、時間メータのスライダを該タグ情報に対応付けられているポインタ情報の再生開始タイムスタンプに位置付けて表示するとともに移動可能となる。再生開始タイムスタンプが再生時間表示領域５８に表示された状態でスライダを移動させると、スライダの位置に対応した再生時点のタイムスタンプが再生時間表示領域５８に表示されつつ、再生領域５１の動画コンテンツが変化する。

再生開始タイムスタンプ及び再生終了タイムスタンプ（以下、タイムスタンプ情報）も、コンテンツ提供者による「マーク入力」ボタン６１の選択、あるいは「マーク」の発話で設定しても良い。例えば動画コンテンツを再生しながら、タイムスタンプ情報を設定したいシーンになった時点でコンテンツ提供者が「マーク入力」ボタン６１を選択、あるいは「マーク」と発話することにより、タイムスタンプ情報を設定することができる。

タグ情報、再生開始タイムスタンプ及び再生終了タイムスタンプの設定が終了した場合、コンテンツ提供者は「タグ入力」ボタン５４を選択する。「タグ入力」ボタン５４の選択を受け付けた時点で、検索支援サーバ３は端末装置１ａのブラウザに表示されている動画コンテンツのＵＲＬをポインタ情報として探索し、設定されたタイムスタンプ情報とともに、入力されたタグ名称に対応付けてサーチデータとしてサーチデータ記憶部３３１に記憶する。

ガイドデータは、サーチデータのタグ情報部分に、サーチデータを識別する識別情報を対応付けて生成する。図６は、本発明の実施の形態に係る検索支援サーバ３で生成されるサーチデータ及びガイドデータの例示図である。図６（ａ）は、生成されたガイドデータの例示図であり、図６（ｂ）は、生成されたガイドデータの基礎となるサーチデータの例示図である。

図６（ａ）に示すように、ガイドデータは、サーチデータの何番目のタグ名称であるかを示す「番号」で対応付けられており、Ｗｅｂサイトを識別する識別情報である共通のサーチデータＩＤ（図６ではサーチデータＩＤ＝ＸＸＸＸＸＸ）を有している。生成されたガイドデータはガイドデータ記憶部３３２に記憶される。

そして、「ポインタ情報」としてＵＲＬ及びタイムスタンプ情報としての再生「開始」時刻及び再生「終了」時刻がタグ名称と対応付けて記憶されているのはサーチデータのみである。したがって、図５の「ガイドデータ」ボタン６２の選択を受け付けることで、サーチデータのタグ情報をコピーし、サーチデータＩＤ（ＸＸＸＸＸＸ）と、サーチデータの何番目のタグ名称であるかを示す「番号」とを対応付けてガイドデータが生成される。図６（ａ）に示すガイドデータの「サーチデータＩＤ」欄が空白なのは、一のサーチデータのみに基づいて生成されたガイドデータであることを意味しており、他のサーチデータに基づいて生成されたガイドデータである場合には、他のサーチデータのサーチデータＩＤが記載される。

図５に示すサイネージウィンドウの共用ウインドウ６０には、生成されたガイドデータの中からコンテンツ提供者がユーザに表示したいデータとして選択したガイドデータのタグ名称が表示されることが好ましい。この場合、「ガイドデータ」ボタン６２の選択を受け付けると「編集」ボタンと「拡張」ボタン（図示せず）が表示される。「編集」ボタンの選択を受け付けた場合、共用ウィンドウ６０内にキーイン等することにより、サイネージウィンドウの共用ウインドウ６０に表示するタグ名称を設定することができる。「拡張」ボタンの選択を受け付けた場合には、他のサーチデータから生成されたガイドデータを追加することができる。追加されたガイドデータから目次データを取り出すことで、目次表示領域５３に表示することができる。

すなわち、本実施の形態では、コンテンツ提供者ごとにサーチデータを生成しても良いし、同一コンテンツ提供者が複数立ち上げたＷｅｂサイトごとにサーチデータを生成しても良い。例えば、同一の会社のＷｅｂサイトであっても、事業部ごと、商品・サービスごとにＷｅｂサイトを立ち上げる機会が急増しており、コンテンツが日々増加する。これらのコンテンツを迅速にかつ確実に検索できるようにすることは、顧客サービスにおいても重要になる。

本実施の形態では、全てのガイドデータは、基礎となるサーチデータに基づいて生成されている。したがって、一のガイドデータに他のサーチデータに基づいて生成されたガイドデータさえ追加すれば、他のサーチデータに対応付けられているコンテンツ（動画コンテンツ含む）、すなわち他のＷｅｂサイトのコンテンツであっても迅速かつ確実に表示・再生することができるようになる。

図７は、本発明の実施の形態に係る検索支援サーバ３のサーチデータ及びガイドデータの例示図である。図７（ａ）は、一のコンテンツ提供者のサーチデータに基づくガイドデータの例示図であり、図７（ｂ）は、動画コンテンツを提供する他のコンテンツ提供者のサーチデータの例示図である。

図６に示すサーチデータ及びガイドデータとの違いは、共通のサーチデータＩＤではなく、異なるサーチデータＩＤを有するガイドデータが含まれている点にある。すなわち、サーチデータ及びガイドデータを生成した時点では、サーチデータＩＤは共通である。本実施の形態では、サーチデータとガイドデータとの二段構造にすることにより、サーチデータＩＤが異なるガイドデータを設定することができる。これにより、サーチデータＩＤが異なるガイドデータの基礎となるサーチデータを読み出すことができ、サーチデータＩＤが異なるサーチデータ、すなわち異なるコンテンツ提供者が提供する動画コンテンツの特定部分を再生することが可能となる。

例えば共通のサーチデータＩＤを「ＹＹＹＹＹＹ」とする。そして、共通のサーチデータＩＤが「ＹＹＹＹＹＹ」を基礎として生成されたガイドデータには、他のサーチデータＩＤを基礎としたガイドデータを随時追加することができる。図７（ａ）の例では、サーチデータＩＤが「ＴＴＴＴＴＴ」であるガイドデータが追加されている。つまり、サーチデータＩＤが「ＴＴＴＴＴＴ」であるガイドデータの基礎となるサーチデータを読み出すことができるようになり、当該サーチデータに対応付けられている動画コンテンツを再生することができるようになる。

つまり、図７（ｂ）に示すサーチデータＩＤが「ＴＴＴＴＴＴ」であるサーチデータを参照することができ、所望のコンテンツのポインタ情報を取得することができる。したがって、ガイドデータを追加するだけで、どのＷｅｂサイトのコンテンツであっても所望のコンテンツを表示することができる。なお、図７（ｂ）において、ガイドデータの「サーチデータＩＤ」欄の空欄は、追加されたガイドデータではなく、サーチデータＩＤが共通のサーチデータＩＤ「ＹＹＹＹＹＹ」であるガイドデータであることを意味している。

図８は、本発明の実施の形態に係る検索支援サーバ３のサーチデータ及びガイドデータの他の例示図である。図８（ａ）は、一のコンテンツ提供者のサーチデータに基づくガイドデータの例示図であり、図８（ｂ）は、他のコンテンツ提供者のサーチデータの例示図である。

例えば共通のサーチデータＩＤを「ＹＹＹＹＹＹ」とする。そして、サーチデータＩＤが「ＹＹＹＹＹＹ」であるサーチデータを基礎として生成されたガイドデータには、他のサーチデータＩＤを基礎としたコンテンツのガイドデータを随時追加することができる。図８（ａ）では、サーチデータＩＤが「ＰＰＰＰＰＰ」であるガイドデータが追加されている。つまり、サーチデータＩＤが「ＰＰＰＰＰＰ」であるガイドデータの基礎となるサーチデータを読み出すことができるようになり、当該サーチデータに対応付けられているコンテンツを表示することができるようになる。

つまり、図８（ｂ）に示すサーチデータＩＤが「ＰＰＰＰＰＰ」であるサーチデータを参照することができ、所望のコンテンツのポインタ情報及びタイムスタンプ情報を取得することができる。したがって、ガイドデータを追加するだけで、どのＷｅｂサイトの動画コンテンツであっても所望の動画コンテンツの所望のシーンだけ再生することができる。なお、図８（ｂ）において、ガイドデータの「サーチデータＩＤ」欄の空欄は、追加されたガイドデータではなく、サーチデータＩＤが「ＹＹＹＹＹＹ」であるガイドデータであることを意味している。

図４に戻って、サイネージウィンドウ表示部４０８は、生成されたガイドデータのタグ名称等を、コンテンツ提供者が選択して、ユーザが使用する端末装置１ｂ上でサイネージウィンドウに表示させる。これにより、ユーザに対して、動画コンテンツの特定部分を示すタグ情報を選択するための発話を誘導することができる。

図９は、本発明の実施の形態に係る検索支援サーバ３が、ユーザが使用する端末装置１ｂ上で表示する入力受付画面９００の例示図である。図９に示すように、動画コンテンツを表示可能なコンテンツウィンドウ９０１と一体となって、サイネージウィンドウ９０２が表示される。サイネージウィンドウ９０２には、文字列が流れて表示されるような形態で表示されることが好ましい。

具体的には、サイネージウィンドウ９０２に、選択されたガイドデータのタグ名称が表示される。図９において、矢印は、文字列がその方向に流れるように移動しながら表示することを意味する。サイネージウィンドウ９０２の表示を見たユーザは、コンテンツ提供者がどのような情報の提供を意図しているかを知ることができ、発話内容を工夫することができる。コンテンツ提供者は、ユーザに提供したい動画コンテンツの中のシーンを示すタグ名称あるいはユーザによる選択を誘導する文字列をサイネージウィンドウ９０２に表示することで、ユーザを提供したい動画コンテンツの中のシーンへと誘導することができる。

また、入力受付画面９００には、動画コンテンツ中のシーンごとのタグ名称が目次として一覧表示される目次表示領域９０３を含む。直接目次を選択して、動画コンテンツの中のシーンをコンテンツウィンドウ９０１に再生させることができる。目次表示領域９０３に表示されているタグ名称の横の「ｉ」ボタンを選択してタグ名称の説明を表示させることもできる。

図４に戻って、スピーチウィンドウ表示部４０９は、生成されたガイドデータのタグ名称をすべて、ユーザが使用する端末装置１ｂ上でスピーチウィンドウに表示させる。目次表示領域９０３に表示しきれないガイドデータのタグ名称も、スピーチウィンドウには表示することができる。ユーザが発話することにより、ガイドデータのタグ名称を絞り込むことができる。絞り込むことで、スピーチウィンドウにスクロール等の操作をすることなくタグ名称を表示することができ、クリック、タッチ等の選択操作でタグ名称を選択することにより、対応付けられている動画コンテンツの特定部分を表示することができる。

図１０は、本発明の実施の形態に係る検索支援サーバ３が、ユーザが使用する端末装置１ｂに表示させるスピーチウィンドウの例示図である。図１０に示すように、生成されたガイドデータのタグ名称は、スピーチウィンドウ１００１上で選択可能な状態でガイドデータ表示領域１００２にすべて表示される。

ガイドデータ表示領域１００２に表示しきれない場合も、スクロールボタン１００３を操作することですべてのガイドデータのタグ名称を閲覧することができる。ガイドデータ表示領域１００２に表示されているガイドデータのタグ名称の中から、一のタグ名称の選択を受け付ける。これにより、選択を受け付けたタグ名称のガイドデータの基礎となるサーチデータを特定することができるので、サーチデータに対応付けられている動画コンテンツの特定部分を再生することができる。

図１０の例では、スピーチウィンドウ１００１に表示されているタグ名称の選択を受け付けた場合、対応するコンテンツの特定部分を確認できるよう、端末装置１ｂに表示する。ユーザが使用する端末装置１ｂは、図１０に示すようにデスクトップ型でも良いし、スマホ、タブレット等の携帯端末であっても良い。

図１１は、本発明の実施の形態に係る検索支援サーバ３のＣＰＵ３１のコンテンツ提供者の設定処理手順を示すフローチャートである。図１１において、検索支援サーバ３のＣＰＵ３１は、動画コンテンツの内容に基づいて、内容を示す単文又は単語群を抽出して（ステップＳ１１０１）、抽出された単文又は単語群の選択を受け付けた場合に対応する動画コンテンツを再生する（ステップＳ１１０２）。

ＣＰＵ３１は、表示出力されたテキストデータ、あるいは再生している動画コンテンツの特定部分に基づいて、タグ名称及びタグ名称の内容を示す単文又は単語群の入力を受け付ける（ステップＳ１１０３）。

ＣＰＵ３１は再生されている動画コンテンツの特定部分に基づいて、動画コンテンツの特定部分を示すポインタ情報を探索する（ステップＳ１１０４）。ＣＰＵ３１は、入力を受け付けたタグ名称ごとに、探索されたポインタ情報の割り付けを受け付ける（ステップＳ１１０５）。これにより、タグ名称の選択を受け付けることにより、割り付けられたポインタ情報に従って、動画コンテンツの特定部分を再生することができる。

ＣＰＵ３１は、入力を受け付けたタグ名称ごとに、検索時に発話可能な属性情報の入力を受け付ける（ステップＳ１１０６）。後述するように、属性情報をユーザが発話することにより、タグ名称を絞り込むことができる。

ＣＰＵ３１は、入力を受け付けたタグ名称及びタグ名称の内容を示す単文又は単語群、属性情報を、ポインタ情報に対応付けてサーチデータを生成する（ステップＳ１１０７）。ＣＰＵ３１は、生成されたサーチデータに含まれるタグ情報を、サーチデータを識別するサーチデータ識別情報と対応付けて、ガイドデータを生成する（ステップＳ１１０８）。

ＣＰＵ３１は、生成されたガイドデータのタグ名称等を、コンテンツ提供者が選択して、ユーザが使用する端末装置１ｂ上でサイネージウィンドウに表示させ（ステップＳ１１０９）、生成されたガイドデータのタグ名称をすべて、ユーザが使用する端末装置１ｂ上でスピーチウィンドウに表示させる（ステップＳ１１１０）。

以下、ユーザが検索処理を実行する手順について説明する。本実施の形態では、コンテンツ提供者がユーザの検索を誘導するサイネージウィンドウ及びスピーチウィンドウを表示させている点に特徴を有している。ただし、それだけではなく、ユーザにとって所望のコンテンツを迅速にかつ確実に検索表示させる工夫として、表示されるガイドデータのタグ名称をユーザが発話することにより絞り込むことができる点が従来の検索システムとの大きな相違点である。

図１２は、本発明の実施の形態に係る検索支援サーバ３のユーザによる発話の音声認識処理の機能ブロック図である。図１２では、ユーザの使用する端末装置１ｂに、図９に示すサイネージウィンドウ及び図１０に示すスピーチウィンドウが表示されている状態でユーザによる発話を入力として受け付け、正しく音声認識する手順について説明する。

図１２に示すように、発話受付部１２０１は、ユーザにより発話された音声データの入力を受け付ける。具体的には、端末装置１ｂにおいてユーザが発話した音声データを受信することで、音声データを取得する。

前処理部１２０２は、入力を受け付けた音声データに対して雑音除去、発話区間の検出等を実行する。前処理された音声データは、メタタグ音声認識部１２０３及び絞り込み音声認識部１２０８へ渡され、メタタグ音声認識部１２０３及び絞り込み音声認識部１２０８を並行して実行する。

メタタグ音声認識部１２０３は、前処理された音声データを認識してテキストデータに変換し、変換されたテキストデータに基づいて、ガイドデータのタグ名称及びタグ名称の内容を示す単文又は単語群に対する一致度を算出し、算出された一致度が最大であるタグ名称を特定するとともに、一致度が所定値より大きい場合にタグ名称に対応するコンテンツの特定部分を表示する。つまり、メタタグ音声認識部１２０３で正しく認識できた場合には、他の音声認識処理と統合する処理等余分な処理を実行することなく認識結果を即座に出力することができる。

すなわち、メタタグ音声認識部１２０３は、テキストデータ変換部１２０４、一致度算出部１２０５、タグ名称特定部１２０６、コンテンツ表示・再生部１２０７を備えている。テキストデータ変換部１２０４は、前処理された音声データを、いわゆるディクテーショングラマーに基づいて認識してテキストデータに変換する。

一致度算出部１２０５は、すべてのタグ名称及びタグ名称の内容を示す単文又は単語群で形成された第一のデータセットを照会して、入力を受け付けた音声データとの一致度を算出する。

タグ名称特定部１２０６は、算出された一致度が最大であるタグ名称を特定する。一致度が最大であるタグ名称が、最も確からしい認識結果だからである。しかし、一致度が所定の閾値以下である場合には誤認識の可能性も高い。

コンテンツ表示・再生部１２０７は、算出された一致度が所定の閾値より大きいか否かを判断する。所定の閾値以下であると判断した場合には、認識精度が不十分であるとして再度の発話の待ち状態とする。所定の閾値より大きいと判断した場合には、特定されたタグ名称に対応付けられたコンテンツの特定部分を表示あるいは再生して、認識結果が正しいか否かを判断できる。

絞り込み音声認識部１２０８は、前処理された音声データに基づいて、いわゆるルールグラマーを用いて、ガイドデータのタグ情報のうち、属性情報に一致するものを抽出し、一致する一又は複数の属性情報の論理積によるガイドデータの絞り込みを行い、絞り込まれたガイドデータのタグ名称及び属性情報を出力する。これにより、メタタグ音声認識部１１０３で妥当な認識結果を得られない場合であっても、次にユーザが発話する内容をさらに絞り込むことができるので、音声認識の成功率を高めることができ、結果として短時間で正しい認識結果を得ることができる。具体的には、絞り込み音声認識部１２０８は、属性抽出部１２０９、絞り込み部１２１０を備えている。

属性抽出部１２０９は、すべてのタグ情報に対応付けられている属性情報で形成された第二のデータセットを音声認識フィルタとして用いた認識結果として属性情報を抽出する。絞り込み部１２１０は、抽出された属性情報の論理積としてタグ名称（ガイドデータ）を絞り込む。

絞り込み音声認識部１２０８は、絞り込まれたガイドデータの属性情報により、音声認識フィルタである第二のデータセットを更新する更新部１２１０を備えることが好ましい。第二のデータセットは、属性情報によりガイドデータが絞り込まれる都度更新されるので、ユーザによる次の発話をさらに制限することになり、正しい認識結果を得る確信度を高めることができ、より迅速に正しい認識結果を得ることが可能となる。

図１３は、本発明の実施の形態に係る検索支援サーバ３のＣＰＵ３１の音声認識処理の手順を示すフローチャートである。検索支援サーバ３のＣＰＵ３１は、ユーザにより発話された音声データの入力を受け付ける（ステップＳ１３０１）。具体的には、端末装置１ｂにおいてユーザが発話した音声データを受信することで、音声データを取得する。

ＣＰＵ３１は、入力を受け付けた音声データに対して雑音除去、発話区間の検出等を実行する（ステップＳ１３０２）。前処理された音声データに基づいて、以下の２つの処理が並行して実行される。

まず、ＣＰＵ３１は、前処理された音声データに基づいて、前処理された音声データを、いわゆるディクテーショングラマーに基づいて認識してテキストデータに変換する（ステップＳ１３０３）。ＣＰＵ３１は、すべてのタグ名称及びタグ名称の内容を示す単文又は単語群で形成された第一のデータセットを照会して、入力を受け付けた音声データとの一致度を算出する（ステップＳ１３０４）。ＣＰＵ３１は、算出された一致度が最大であるタグ名称を特定する（ステップＳ１３０５）。

ＣＰＵ３１は、算出された一致度が所定の閾値より大きいか否かを判断する（ステップＳ１３０６）。ＣＰＵ３１が、所定の閾値以下であると判断した場合（ステップＳ１３０６：ＮＯ）、ＣＰＵ３１は、処理をステップＳ１３０１へ戻して、再度の発話の待ち状態となる。

ＣＰＵ３１が、所定の閾値より大きいと判断した場合（ステップＳ１３０６：ＹＥＳ）、ＣＰＵ３１は、特定されたタグ名称に対応付けられたコンテンツの特定部分を表示あるいは再生する（ステップＳ１３０７）。

一方、ＣＰＵ３１は、前処理された音声データに基づいて、全てのタグ名称に対応付けられている属性情報で形成された第二のデータセットを音声認識フィルタとして用い、認識結果の属性情報を抽出する（ステップＳ１３０８）。ＣＰＵ３１は、抽出された属性情報の論理積としてタグ名称（ガイドデータ）を絞り込む（ステップＳ１３０９）。ＣＰＵ３１は、絞り込まれたガイドデータのタグ名称及び属性情報により、音声認識フィルタである第二のデータセットを更新し（ステップＳ１３１０）、処理をステップＳ１３０１へ戻して、再度の発話の待ち状態となる。

以上のように本実施の形態によれば、Ｗｅｂサイト上に公開されている多数の動画コンテンツの中から、動画コンテンツを提供するコンテンツ提供者が、自分の動画コンテンツへユーザを誘導しやすいガイドデータをスピーチウィンドウやサイネージウィンドウに表示することができるとともに、ユーザ自らの意思で選択対象となるガイドデータを絞り込むことができるので、個々のユーザが表示されているガイドデータ通りに発話あるいは選択することにより、迅速にかつ確実にコンテンツ提供者が提供する動画コンテンツの特定部分をユーザに対して表示することが可能となる。

また、本実施の形態によれば、メタタグ音声認識処理と絞り込み音声認識処理とを並行して実行することにより、メタタグ音声認識が正しい場合にはそのまま認識結果を出力することができ、一方で、認識結果の確からしさが足りない場合には、より絞り込んだガイドデータに基づくタグ名称をスピーチウィンドウに表示することができる。したがって、ユーザは、比較的短時間で所望のコンテンツを表示又は再生することが可能となる。

なお、本発明は上記実施例に限定されるものではなく、本発明の趣旨の範囲内であれば多種の変更、改良等が可能である。例えば属性情報を含むタグ情報の入力方法は、上述した方法に限定されるものではなく、タグ名称を絞り込むことができる文字列を入力可能であれば特に限定されるものではない。

また、ユーザによる発話を認識する場合に、メタタグ音声認識部１２０３と並行に処理を実行する認識処理は、絞り込み音声認識部１２０８に限定されるものではなく、ユーザによる次の発話を限定することができる処理であれば特に限定されるものではない。

また、上記実施例では、スピーチウィンドウ８１はユーザが使用する端末装置１ｂ上に表示されているが、特にこれに限定されるものではなく、例えばデータ通信することが可能に接続されているスマートホン、タブレット等の外部の携帯端末装置上でリモート操作する形態であっても良い。

また、音声認識に用いるディクテーショングラマー及びルールグラマーは、テキストデータ、ガイドデータ及び外部から取得したテキストデータを教師データとして学習することにより生成することが望ましい。学習方法としては、いわゆる機械学習、深層学習のようにＡＩを用いても良いし、対応テーブルを拡充するような従来の方法であっても良く、特に限定されるものではない。

１、１ａ、１ｂ端末装置
２ネットワーク網
３検索支援サーバ２０８
１１、３１ＣＰＵ
１２、３２メモリ
１３、３３記憶装置
１４、３４Ｉ／Ｏインタフェース
１５、３５ビデオインタフェース
１６、３６可搬型ディスクドライブ
１７、３７通信インタフェース
１８、３８内部バス
９０、９１記憶媒体
１００、１０１コンピュータプログラム
３３１サーチデータ記憶部
３３２ガイドデータ記憶部

Claims

Ｗｅｂサイト上に公開される動画コンテンツの検索を支援する検索支援サーバであって、
動画コンテンツの特定部分を示すタグ情報を選択するための発話を誘導するガイドデータを選択的に表示するサイネージウィンドウと、
前記ガイドデータの中から、表示するべきガイドデータをユーザの発話により絞り込むことが可能なスピーチウィンドウと
をデータ通信することが可能に接続されている端末装置に表示させ、
前記サイネージウィンドウ及び／又は前記スピーチウィンドウに表示された前記タグ情報のユーザによる発話を受け付けて、表示される前記タグ情報を絞り込み、絞り込まれた前記タグ情報の選択を受け付けることにより、選択を受け付けた前記タグ情報に対応する前記動画コンテンツの特定部分を前記端末装置において再生させることを特徴とする検索支援サーバ。
前記タグ情報は、少なくとも前記動画コンテンツの特定部分を識別するタグ名称、前記タグ名称の内容を説明する単文又は単語群からなるテキストデータ及び前記タグ名称の属性を示す属性情報で構成されていることを特徴とする請求項１に記載の検索支援サーバ。
前記サイネージウィンドウ及び／又は前記スピーチウィンドウに表示するガイドデータの基礎となるサーチデータを生成するサーチデータ生成手段を備え、
該サーチデータ生成手段は、
前記動画コンテンツの内容に基づいて、内容を示す単文又は単語群を抽出して、抽出された単文又は単語群の選択を受け付けた場合に対応する前記動画コンテンツを再生する抽出・再生手段と、
再生される前記動画コンテンツに基づいて、前記タグ名称及び前記タグ名称の内容を示す単文又は単語群の入力を受け付けるタグ入力受付手段と、
再生される前記動画コンテンツに基づいて、前記動画コンテンツの特定部分の再生開始時間及び再生終了時間を含むポインタ情報を探索するポインタ探索手段と、
入力を受け付けた前記タグ名称ごとに、探索された前記ポインタ情報の割り付けを受け付けるポインタ割付受付手段と、
入力を受け付けた前記タグ名称ごとに、検索時に発話可能な前記属性情報の入力を受け付ける属性情報受付手段と
を備えることを特徴とする請求項２に記載の検索支援サーバ。
前記抽出・再生手段は、
前記動画コンテンツを精査して、含まれている音声を単文又は単語群として認識してテキストデータとして出力する音声文字起し手段と、
出力されたテキストデータの選択を受け付けた場合、選択を受け付けたテキストデータに対応する前記動画コンテンツを再生するコンテンツ再生手段と
を備えることを特徴とする請求項３に記載の検索支援サーバ。
前記ポインタ割付手段は、探索された前記ポインタ情報に含まれる、前記動画コンテンツの特定部分の再生開始時間及び再生終了時間について、前記動画コンテンツを再生しながら更新を受け付けるポインタ更新受付手段を備えることを特徴とする請求項３に記載の検索支援サーバ。
前記ガイドデータは、前記サーチデータに含まれる前記タグ情報を、前記サーチデータを識別するサーチデータ識別情報と対応付けて生成されることを特徴とする請求項３乃至５のいずれか一項に記載の検索支援サーバ。
前記スピーチウィンドウに表示され、ユーザによる選択を受け付けることが可能な前記タグ名称を絞り込むために、
ユーザにより発話された音声データの入力を受け付ける発話受付手段と、
入力を受け付けた音声データをテキストデータに変換し、変換したテキストデータの前記ガイドデータの前記タグ名称及び前記タグ名称の内容を示す単文又は単語群に対する一致度を算出し、算出された一致度が最大であるタグ名称を特定するとともに、前記一致度が所定値より大きい場合に前記タグ名称に対応する前記コンテンツの特定部分を表示するメタタグ音声認識手段と、
入力を受け付けた音声データに基づいて、前記ガイドデータの前記タグ情報のうち、前記属性情報に一致するものを抽出し、一致する一又は複数の属性情報の論理積による前記ガイドデータの絞り込みを行い、絞り込まれた前記ガイドデータの前記タグ名称及び前記属性情報を出力する絞り込み音声認識手段と
を備え、前記メタタグ音声認識手段及び前記絞り込み音声認識手段を並行して実行することを特徴とする請求項３乃至６のいずれか一項に記載の検索支援サーバ。
前記メタタグ音声認識手段は、変換されたテキストデータと、すべての前記タグ名称及び前記タグ名称の内容を示す単文又は単語群で形成された第一のデータセットとの一致度を算出し、
前記絞り込み音声認識手段は、すべてのタグ名称に対応付けられている前記属性情報で形成された第二のデータセットを音声認識フィルタとして用いた認識結果として抽出された前記属性情報の論理積により前記ガイドデータを絞り込むことを特徴とする請求項７に記載の検索支援サーバ。
前記絞り込み音声認識手段は、絞り込まれたガイドデータの前記属性情報により前記第二のデータセットを更新することを特徴とする請求項８に記載の検索支援サーバ。
Ｗｅｂサイト上に公開される動画コンテンツの検索を支援する検索支援サーバで実行することが可能な検索支援方法であって、
前記検索支援サーバが、
動画コンテンツの特定部分を示すタグ情報を選択するための発話を誘導するガイドデータを選択的に表示するサイネージウィンドウと、
前記ガイドデータの中から、表示するべきガイドデータをユーザの発話により絞り込むことが可能なスピーチウィンドウと
をデータ通信することが可能に接続されている端末装置に表示させる工程と、
前記サイネージウィンドウ及び／又は前記スピーチウィンドウに表示された前記タグ情報のユーザによる発話を受け付けて、表示される前記タグ情報を絞り込み、絞り込まれた前記タグ情報の選択を受け付けることにより、選択を受け付けた前記タグ情報に対応する前記動画コンテンツの特定部分を前記端末装置において再生させる工程と
を実行することを特徴とする検索支援方法。
前記タグ情報は、少なくとも前記動画コンテンツの特定部分を識別するタグ名称、前記タグ名称の内容を説明する単文又は単語群からなるテキストデータ及び前記タグ名称の属性を示す属性情報で構成されていることを特徴とする請求項１０に記載の検索支援方法。
前記検索支援サーバが、
前記動画コンテンツの内容に基づいて、内容を示す単文又は単語群を抽出して、抽出された単文又は単語群の選択を受け付けた場合に対応する前記動画コンテンツを再生する工程と、
再生される前記動画コンテンツに基づいて、前記タグ名称及び前記タグ名称の内容を示す単文又は単語群の入力を受け付ける工程と、
再生される前記動画コンテンツに基づいて、前記動画コンテンツの特定部分の再生開始時間及び再生終了時間を含むポインタ情報を探索する工程と、
入力を受け付けた前記タグ名称ごとに、探索された前記ポインタ情報の割り付けを受け付ける工程と、
入力を受け付けた前記タグ名称ごとに、検索時に発話可能な前記属性情報の入力を受け付ける工程と
を実行し、前記サイネージウィンドウ及び／又は前記スピーチウィンドウに表示するガイドデータの基礎となるサーチデータを生成することを特徴とする請求項１１に記載の検索支援方法。
前記検索支援サーバが、
前記動画コンテンツを精査して、含まれている音声を単文又は単語群として認識してテキストデータとして出力する工程と、
出力されたテキストデータの選択を受け付けた場合、選択を受け付けたテキストデータに対応する前記動画コンテンツを再生する工程と
を実行することを特徴とする請求項１２に記載の検索支援方法。
前記検索支援サーバが、
探索された前記ポインタ情報に含まれる、前記動画コンテンツの特定部分の再生開始時間及び再生終了時間について、前記動画コンテンツを再生しながら更新を受け付ける工程を実行することを特徴とする請求項１２に記載の検索支援方法。
前記ガイドデータは、前記サーチデータに含まれる前記タグ情報を、前記サーチデータを識別するサーチデータ識別情報と対応付けて生成されることを特徴とする請求項１２乃至１４のいずれか一項に記載の検索支援方法。
前記スピーチウィンドウに表示され、ユーザによる選択を受け付けることが可能な前記タグ名称を絞り込むために、
前記検索支援サーバが、
ユーザにより発話された音声データの入力を受け付ける工程を実行し、
前記検索支援サーバが、
入力を受け付けた音声データをテキストデータに変換し、変換したテキストデータの前記ガイドデータの前記タグ名称及び前記タグ名称の内容を示す単文又は単語群に対する一致度を算出し、算出された一致度が最大であるタグ名称を特定するとともに、前記一致度が所定値より大きい場合に前記タグ名称に対応する前記コンテンツの特定部分を表示する工程、及び
入力を受け付けた音声データに基づいて、前記ガイドデータの前記タグ情報のうち、前記属性情報に一致するものを抽出し、一致する一又は複数の属性情報の論理積による前記ガイドデータの絞り込みを行い、絞り込まれた前記ガイドデータの前記タグ名称及び前記属性情報を出力する工程
を、並行して実行することを特徴とする請求項１２乃至１５のいずれか一項に記載の検索支援方法。
前記検索支援サーバが、
変換されたテキストデータと、すべての前記タグ名称及び前記タグ名称の内容を示す単文又は単語群で形成された第一のデータセットとの一致度を算出する工程と、
すべてのタグ名称に対応付けられている前記属性情報で形成された第二のデータセットを音声認識フィルタとして用いた認識結果として抽出された前記属性情報の論理積により前記ガイドデータを絞り込む工程と
を実行することを特徴とする請求項１６に記載の検索支援方法。
前記検索支援サーバが、絞り込まれたガイドデータの前記属性情報により前記第二のデータセットを更新する工程を実行することを特徴とする請求項１７に記載の検索支援方法。
Ｗｅｂサイト上に公開される動画コンテンツの検索を支援する検索支援サーバで実行することが可能なコンピュータプログラムであって、
前記検索支援サーバを、
動画コンテンツの特定部分を示すタグ情報を選択するための発話を誘導するガイドデータを選択的に表示するサイネージウィンドウと、
前記ガイドデータの中から、表示するべきガイドデータをユーザの発話により絞り込むことが可能なスピーチウィンドウと
をデータ通信することが可能に接続されている端末装置に表示させる手段、及び
前記サイネージウィンドウ及び／又は前記スピーチウィンドウに表示された前記タグ情報のユーザによる発話を受け付けて、表示される前記タグ情報を絞り込み、絞り込まれた前記タグ情報の選択を受け付けることにより、選択を受け付けた前記タグ情報に対応する前記動画コンテンツの特定部分を前記端末装置において再生させる手段
として機能させることを特徴とするコンピュータプログラム。
前記タグ情報は、少なくとも前記動画コンテンツの特定部分を識別するタグ名称、前記タグ名称の内容を説明する単文又は単語群からなるテキストデータ及び前記タグ名称の属性を示す属性情報で構成されていることを特徴とする請求項１９に記載のコンピュータプログラム。
前記検索支援サーバを、
前記サイネージウィンドウ及び／又は前記スピーチウィンドウに表示するガイドデータの基礎となるサーチデータを生成するサーチデータ生成手段
として機能させ、
該サーチデータ生成手段を、
前記動画コンテンツの内容に基づいて、内容を示す単文又は単語群を抽出して、抽出された単文又は単語群の選択を受け付けた場合に対応する前記動画コンテンツを再生する抽出・再生手段、
再生される前記動画コンテンツに基づいて、前記タグ名称及び前記タグ名称の内容を示す単文又は単語群の入力を受け付けるタグ入力受付手段、
再生される前記動画コンテンツに基づいて、前記動画コンテンツの特定部分の再生開始時間及び再生終了時間を含むポインタ情報を探索するポインタ探索手段、
入力を受け付けた前記タグ名称ごとに、探索された前記ポインタ情報の割り付けを受け付けるポインタ割付受付手段、及び
入力を受け付けた前記タグ名称ごとに、検索時に発話可能な前記属性情報の入力を受け付ける属性情報受付手段
として機能させることを特徴とする請求項２０に記載のコンピュータプログラム。
前記抽出・再生手段を、
前記動画コンテンツを精査して、含まれている音声を単文又は単語群として認識してテキストデータとして出力する音声文字起し手段、及び
出力されたテキストデータの選択を受け付けた場合、選択を受け付けたテキストデータに対応する前記動画コンテンツを再生するコンテンツ再生手段
として機能させることを特徴とする請求項２１に記載のコンピュータプログラム。
前記ポインタ割付手段を、探索された前記ポインタ情報に含まれる、前記動画コンテンツの特定部分の再生開始時間及び再生終了時間について、前記動画コンテンツを再生しながら更新を受け付けるポインタ更新受付手段として機能させることを特徴とする請求項２１に記載のコンピュータプログラム。
前記ガイドデータは、前記サーチデータに含まれる前記タグ情報を、前記サーチデータを識別するサーチデータ識別情報と対応付けて生成されることを特徴とする請求項２１乃至２３のいずれか一項に記載のコンピュータプログラム。
前記スピーチウィンドウに表示され、ユーザによる選択を受け付けることが可能な前記タグ名称を絞り込むために、
前記検索支援サーバを、
ユーザにより発話された音声データの入力を受け付ける発話受付手段として機能させ、前記検索支援サーバを、
入力を受け付けた音声データをテキストデータに変換し、変換したテキストデータの前記ガイドデータの前記タグ名称及び前記タグ名称の内容を示す単文又は単語群に対する一致度を算出し、算出された一致度が最大であるタグ名称を特定するとともに、前記一致度が所定値より大きい場合に前記タグ名称に対応する前記コンテンツの特定部分を表示するメタタグ音声認識手段、及び
入力を受け付けた音声データに基づいて、前記ガイドデータの前記タグ情報のうち、前記属性情報に一致するものを抽出し、一致する一又は複数の属性情報の論理積による前記ガイドデータの絞り込みを行い、絞り込まれた前記ガイドデータの前記タグ名称及び前記属性情報を出力する絞り込み音声認識手段
として、並行して機能させることを特徴とする請求項２１乃至２４のいずれか一項に記載のコンピュータプログラム。
前記メタタグ音声認識手段を、変換されたテキストデータと、すべての前記タグ名称及び前記タグ名称の内容を示す単文又は単語群で形成された第一のデータセットとの一致度を算出する手段として機能させ、
前記絞り込み音声認識手段を、すべてのタグ名称に対応付けられている前記属性情報で形成された第二のデータセットを音声認識フィルタとして用いた認識結果として抽出された前記属性情報の論理積により前記ガイドデータを絞り込む手段として機能させることを特徴とする請求項２５に記載のコンピュータプログラム。
前記絞り込み音声認識手段を、絞り込まれたガイドデータの前記属性情報により前記第二のデータセットを更新する手段として機能させることを特徴とする請求項２６に記載のコンピュータプログラム。