JP2020053715A

JP2020053715A - 情報処理システム、情報処理方法、及び、情報処理プログラム

Info

Publication number: JP2020053715A
Application number: JP2018177974A
Authority: JP
Inventors: 佳之上野; Yoshiyuki Ueno
Original assignee: Saito Sokki Kk
Current assignee: Saito Sokki Kk
Priority date: 2018-09-21
Filing date: 2018-09-21
Publication date: 2020-04-02
Anticipated expiration: 2038-09-21
Also published as: JP6906801B2

Abstract

【課題】従来には無い新たな字幕付与のためのシステムを提供する。【解決手段】情報処理システムは、インターネットに接続された複数の字幕入力者端末を含む。字幕入力者端末には、番組の音声が配信され、字幕入力者は、端末を用いて音声に応じた文字を入力する。複数の字幕入力者が入力した入力文字に基づいて字幕判定が行われ、字幕判定の結果に基づいて映像に字幕が付与される。字幕文字として決定された文字を入力した字幕入力者には、仮想通貨等の特典が付与される。【選択図】図８

Description

本発明は、字幕入力を行うための情報処理システム、情報処理方法、及び、情報処理プログラムに関する。

従来より、例えば生放送の番組にリアルタイムで字幕を付与する装置がある。例えば、特許文献１に記載の装置では、事前原稿を基に番組開始直前に記者が修正する箇所を、オペレータが撮像画像を見ながらリアルタイムで修正し、その修正結果を、同一のオペレータあるいは別のオペレータが、字幕スーパーとして見易いセンテンスに分割しておき、番組開始と同時に、アナウンサの音声をモニタしながら、作成したセンテンスをタイミング良く送り出す。

特開２００１−１６９１４８号公報

しかしながら、上記特許文献１に記載の装置は、事前原稿が元になるため、例えば事前原稿のない番組については字幕を付与することができなかった。

それ故、本発明の目的の一つは、従来には無い新たな字幕付与のためのシステムを提供することである。

本発明の一例では、上記の課題を解決するために、以下の構成を採用した。

本発明に係る情報処理システムは、複数の入力者によって入力された入力文字をそれぞれ取得する取得手段と、前記複数の入力者によって入力された入力文字のうち、何れの入力文字を字幕文字として採用するかを決定する字幕文字決定手段と、前記字幕文字として採用された入力文字を入力した入力者に対して、特典を付与する特典付与手段と、を備える。

上記によれば、複数の入力者によって入力された入力文字について、何れの文字を字幕文字として採用するかを決定し、字幕文字として採用された文字を入力した入力者に対して、特典を付与することができる。入力者に対して特典を付与することにより、多数の入力者を字幕文字のための文字の入力に参加させることができる。

他の構成では、前記情報処理システムは、前記複数の入力者に対して、マイクで集音された音声に基づく音声情報をリアルタイムで送信する送信手段を更に備えてもよい。前記取得手段は、前記入力者が前記音声情報に基づいてリアルタイムで入力した入力文字を取得してもよい。前記字幕文字決定手段は、前記複数の入力者が前記音声情報に基づいてリアルタイムで入力した入力文字のうち、何れの入力文字を字幕文字として採用するかを決定してもよい。

上記によれば、マイクで集音された音声をリアルタイムで送信し、当該音声に応じた文字を取得し、字幕文字を決定することができる。

他の構成では、前記取得手段は、インターネットで接続された複数の入力者端末から、放送のための音声に応じて入力された前記入力文字を取得してもよい。また、前記字幕文字決定手段は、前記音声に対応する放送のための映像に付与する前記字幕文字を決定してもよい。

上記によれば、複数の入力者端末はインターネットに接続され、入力者は、インターネットを介して放送のための音声に応じた文字を入力する。入力された入力文字に基づいて、放送のための映像に付与する字幕文字が決定される。これにより、放送のための映像に付与する字幕文字をインターネットに接続された入力者が入力することができ、放送される映像に字幕を付与するための新たなシステムを構築することができる。

他の構成では、前記字幕文字決定手段は、前記複数の入力者によって入力された入力文字のうち、何れかの入力文字を字幕文字の候補として判定する字幕判定手段と、前記字幕判定手段によって判定された字幕文字の候補のうち何れかを前記字幕文字として決定する決定手段と、を含んでもよい。

上記によれば、複数の入力者によって入力された入力文字を字幕文字の候補として決定し、その候補の中から何れかを字幕文字として決定することができる。

他の構成では、前記情報処理システムは、前記字幕判定手段によって判定された字幕文字の候補を表示手段に表示させる候補表示制御手段を更に備えてもよい。前記決定手段は、決定者の入力に基づいて、前記候補表示制御手段によって表示された前記字幕文字の候補のうち何れかを前記字幕文字として決定してもよい。

上記によれば、字幕文字の候補を表示手段に表示し、決定者が表示された候補の中から字幕文字を決定することができる。

他の構成では、前記情報処理システムは、音声認識システムが前記音声情報に基づいて音声認識を行った結果を取得する音声認識結果取得手段を更に備えてもよい。前記字幕文字決定手段は、前記音声認識結果取得手段によって取得された前記音声認識の結果と、前記複数の入力者によって入力された入力文字とに基づいて、前記字幕文字を決定してもよい。

上記によれば、入力者からの入力文字に加えて、音声認識システムの結果に基づいて字幕文字を決定することができる。

他の構成では、前記字幕文字決定手段は、前記複数の入力者によって入力された入力文字のうち、共通する入力文字を前記字幕文字として決定してもよい。

上記によれば、複数の入力者が入力した文字について共通する入力文字を字幕文字として決定することができ、正確な字幕文字を決定することができる。

他の構成では、前記特典付与手段は、前記特典として、仮想通貨、電子マネー、ポイント、及び法定通貨のうちの何れかを付与してもよい。

上記によれば、入力者に対して、仮想通貨、電子マネー、ポイント、及び法定通貨のうちの何れかを付与することができる。

他の構成では、前記特典付与手段は、分散型台帳システムを介して、前記特典を付与してもよい。

上記によれば、特典を分散型台帳システムを介して付与することができ、付与された特典の改ざんを防止することができる。

また、他の発明は、上記情報処理システムにおいて行われる情報処理方法であってもよい。また、他の発明は、上記情報処理システムにおいて実行される情報処理プログラムであってもよい。また、上記情報処理システムは、複数の装置によって実現されてもよいし、１つの装置によって実現されてもよい。

本発明によれば、多数の入力者に字幕文字のための入力に参加させることができる。

本実施形態の情報処理システム１の全体構成の一例を示す図情報処理システム１の動作の一例を示す図字幕入力者端末６の機能構成の一例を示すブロック図ブロックチェーンＮＷ３内のノードの機能構成の一例を示すブロック図放送局内の字幕付与システムの機能構成の一例を示すブロック図情報処理システム１において行われる処理の一例を示す図字幕判定の一例を示す図音声認識システムにおいて字幕判定が行われる場合の情報処理システム１の構成を示す図字幕入力者端末６において行われる処理の一例を示すフローチャート音声認識システム５において行われる処理の一例を示すフローチャート情報処理システム１において行われる字幕判定処理および特典付与のための処理の一例を示すフローチャート字幕文字の決定に応じてブロックチェーンＮＷ３に記録される情報の一例を示す図

（情報処理システムの概要）
以下、本発明の一実施形態に係る情報処理システムについて説明する。図１は、本実施形態の情報処理システム１の全体構成の一例を示す図である。情報処理システム１は、放送局４と、音声認識システム５と、複数の字幕入力者端末６（６ａ、６ｂ等）とを含む。字幕入力者端末６は、字幕入力者によって操作される端末である。情報処理システム１には、図に示す他にも多数の字幕入力者端末６が含まれる。なお、以下では、字幕入力者端末６ａ、６ｂを総称して「字幕入力者端末６」と表記する。

放送局４と、音声認識システム５と、複数の字幕入力者端末６とは、インターネット２（ネットワークの一例）を介して接続される。また、インターネット２は、複数のノードＮで構成されるブロックチェーンネットワーク（以下、「ブロックチェーンＮＷ」と表記することがある）３を含む。また、インターネット２には、複数の視聴者端末７が接続される。

ブロックチェーンＮＷ３は、複数のノードがＰ２Ｐ（ＰｅｅｒｔｏＰｅｅｒ）で接続されたネットワークであり、ブロックチェーン技術（分散型台帳技術）で接続されたネットワークである。ブロックチェーンＮＷ３は、分散型アプリケーションやスマートコントラクトを実行する。ブロックチェーンＮＷ３のノードは、ネットワークに投函されたトランザクション（例えば、後述する仮想通貨の送金のためのトランザクション）を各ノードに伝播し、各ノードはトランザクションをブロックに取り込むためのマイニング（採掘作業；具体的には数学的な計算）を行う。マイニングに成功したノードは、ネットワーク内の各ノードにその結果をブロードキャストし、各ノードはその結果をブロックに書き込む。これにより、ブロックチェーンＮＷ３全体で同じ情報が記録される。

ブロックチェーンＮＷ３は、例えば、イーサリアム（Ｅｔｈｅｒｅｕｍ）、ＨｙｐｅｒｌｅｄｇｅｒＦａｂｒｉｃ、ＮＥＭ等のブロックチェーン技術を実現するプラットフォームを用いて構成されてもよい。本実施形態では、ブロックチェーンＮＷ３は、イーサリアムネットワークであるものとする。なお、ブロックチェーンＮＷ３は、他のブロックチェーン技術を実現するプラットフォームを用いて構成されてもよい。また、ブロックチェーンＮＷ３は、ブロックチェーン技術とは異なる他の分散型台帳技術を用いて構成されてもよい。また、ブロックチェーンＮＷ３は、パブリックなブロックチェーンネットワークであってもよいし、プライベートなブロックチェーンネットワークであってもよい。

放送局４は、地上波、衛星、有線、インターネット等により映像及び音声を放送する。放送局４は、映像を撮影するためのカメラ、音声を集音するためのマイク、放送のための機器、及び、字幕付与のための字幕付与システム等を含む。放送局４内の字幕付与システムは、番組関係者によって操作される端末と、少なくとも音声を事前に字幕入力者端末６及び音声認識システム５に配信する配信装置と、決定された字幕を映像に付与するための装置とを含む。

放送局４は、例えば、スポーツ番組やニュース番組等を生放送する。本実施形態の情報処理システム１は、放送局４が放送する生放送の映像に、字幕入力者が字幕入力者端末６を用いて入力した字幕を付与するためのシステムであり、字幕を入力した字幕入力者に対して報酬を付与するためのシステムである。以下、情報処理システム１の動作について説明する。

図２は、情報処理システム１の動作の一例を示す図である。字幕入力者は、予め本情報処理システム１のユーザとして登録されているものとする。図２に示されるように、放送局４（の配信装置）は、例えばインターネット２を介して、各字幕入力者に対して少なくとも音声情報を配信する（図２の（１））。この音声情報は、放送局４がこれから生放送する番組の音声情報である。具体的には、カメラで撮影した映像およびマイクで集音した音声を生放送する前に、放送局４は、各字幕入力者に対して、マイクで集音した音声をインターネット２を介して字幕入力者端末６に配信する。放送局４は、撮影した映像および集音した音声をすぐに地上波等を通して放送するのではなく、例えば３０秒だけ遅らせて放送する。一方、放送局４は、字幕入力者に対しては、集音した音声をリアルタイムで音声データに変換し、当該音声データをインターネット２を介してリアルタイムで字幕入力者端末６に配信する。字幕入力者端末６は、放送局４からの音声データを受信して再生する。これにより、字幕入力者は、生放送される前の（例えば３０秒前の）番組の音声を聞くことができる。なお、放送局４は、音声に加えて映像も字幕入力者に事前に配信してもよい。

また、放送局４は、音声認識システム５に対しても同様の音声データを配信する。音声認識システム５は、音声認識プログラムを実行するプロセッサと、放送局４からの音声データを入力する音声データ入力部と、通信を行うための通信部とを有する。音声認識システム５は、放送局４からの音声データを受信し、当該音声データに基づいて音声認識処理を行う。そして、音声認識システム５は、音声認識の結果（すなわち、文字情報）をブロックチェーンネットワーク３に送信する（図２の（２））。

字幕入力者端末６は、放送局４から配信された音声データに基づいて音声を再生する。字幕入力者は、当該再生された音声を聞き、字幕入力者端末６を用いて、その音声に対応する文字を入力する。字幕入力者端末６は、字幕入力者によって入力された入力文字をブロックチェーンＮＷ３に送信する（図２の（３））。

ブロックチェーンＮＷ３は、字幕入力者端末６からの入力文字を受信した場合、又は、音声認識システム５から音声認識結果（文字情報）を受信した場合、これらの情報をブロックチェーンＮＷ３に記録するとともに、これらの情報に基づいて、字幕判定を行う（図２の（４））。具体的には、ブロックチェーンＮＷ３は、複数の字幕入力者が入力した入力文字の中から映像に付与する字幕文字の候補を判定する。例えば、ブロックチェーンＮＷ３は、字幕文字の候補を複数判定してもよいし、１つだけ判定してもよい。

次に、放送局４（の端末）は、字幕判定の結果（すなわち、少なくとも１つの字幕文字の候補）を取得する（図２の（５））。そして、放送局４において、少なくとも１つの字幕文字の候補の中から映像に付与する字幕文字が決定され、決定された字幕文字が映像に付与される（図２の（６））。放送局４は、字幕文字が付与された映像を例えば地上波を通じて放送する。これにより、視聴者（例えば聴覚障がい者）は、受信機を用いて、字幕付きの映像を視聴することが可能になる。なお、視聴者は、聴覚障がい者に限らず、例えば、音声を聞くことが困難な状況にある視聴者（例えば、地上波を受信可能な端末を有する視聴者であって電車に乗っている視聴者）であってもよい。

映像に付与する字幕文字が決定された場合、字幕入力者に対して、入力文字が字幕文字として採用されたか否かの採否通知がなされる（図２の（７））。例えば、字幕入力者が、放送局４からの音声（図２の（１）で配信された音声）を正しく文字として入力した場合、当該入力文字は、映像に付与する字幕文字として採用される。この場合、字幕文字として採用されたことを示す情報が、その文字を入力した字幕入力者に通知される。例えば、採用された文字数、及び、その文字数に応じて付与される特典の情報が、Ｅ−Ｍａｉｌを通じて字幕入力者に通知されてもよい。なお、字幕文字として採用されなかった場合は、採用されなかったことを示す情報が字幕入力者に通知されてもよい。

また、字幕文字として採用された文字を入力した字幕入力者に対して、その報酬としての特典が付与される（図２の（８））。具体的には、放送局４から字幕入力者に対して、ブロックチェーンＮＷ３を通じて特典が付与される。例えば、付与される特典は、情報処理システム１内においてのみ利用可能な独自のトークン（独自の仮想通貨）であってもよいし、仮想通貨取引所等で法定通貨と交換可能な仮想通貨であってもよい。また、付与される特典は、電子マネーであってもよいし、情報処理システム１内において利用可能なポイントであってもよいし、情報処理システム１外においても利用可能なポイントであってもよい。本実施形態では、付与される特典は、独自のトークンであるものとする。

本実施形態では、予めブロックチェーンＮＷ３において独自のトークン（独自の仮想通貨）を作成し、字幕入力者に対する報酬として当該独自のトークンを付与するものとする。なお、各字幕入力者に対して、予め所定量のトークンが付与されているものとする。

付与されたトークンに関する情報は、ブロックチェーンＮＷ３に書き込まれる。トークンが付与された字幕入力者は、字幕入力者端末６を用いてブロックチェーンＮＷ３に接続することで、付与されたトークンを確認することができる。また、字幕入力者は、ブロックチェーンＮＷ３に接続することで、付与されたトークンを他のアイテムと交換することができる。例えば、字幕入力者は、付与されたトークンと引き換えに、放送局４が有償で提供するサービス（例えば映像や音楽等のコンテンツ）を利用したり、法定通貨と交換したり、商品と交換したりすることができる。なお、字幕入力者は、字幕入力者端末６に限らず、ウォレットをインストールした他の端末（他のパーソナルコンピュータ、タブレット、スマートフォン等）を用いて、付与されたトークンを確認したり、トークンを他のアイテムと交換したりすることができる。

このように、本実施形態の情報処理システム１では、字幕入力者が放送される音声を聞いてリアルタイムで字幕を入力することで、リアルタイムで映像に字幕を付与することができる。本実施形態では、字幕入力者に対して、字幕を入力したことに対する報酬としてトークン（独自の仮想通貨）を付与するため、多数の人を字幕入力に参加させることができる。多数の字幕入力者が字幕入力に参加することで、一部の番組にしか付与できなかった字幕を、より多くの番組に付与することができる。また、多数の字幕入力者が字幕入力に参加することで、字幕付与にかかるコストを低減することができるとともに、正確な字幕を付与することができる。また、多数の一般の人が番組の制作に関わることができるため、放送局と視聴者との距離を縮めることができる。

また、本実施形態では、ブロックチェーンＮＷ３にトークンを送金するためのトランザクションを発行することで、ブロックチェーンＮＷ３にトークンに関する情報を記録することができ、トークンに関する情報の改ざんを困難にすることができる。

また、視聴者は、放送された字幕付きの映像を見て、字幕に対する評価を放送局４にフィードバックすることができる（図２の（９））。例えば、字幕の表示タイミングや正確さに関して評価し、その評価結果が、例えば視聴者端末７を介して放送局４に送信されてもよい。放送局４では、そのフィードバックを考慮して、システムを改善することができる。放送局４は、フィードバックを送信した視聴者に対して、評価を送信したことに対する対価として、トークンを付与する。この視聴者に対するトークンの付与は、ブロックチェーンＮＷ３を通じて行われる。

なお、図は単なる一例であり、情報処理システム１の構成はこれに限らない。例えば、音声認識システム５は、放送局４と同一主体により管理されてもよいし、別主体により管理されてもよい。また、音声認識システム５は、放送局４と同じ場所に配置されてもよいし、異なる場所に配置されてもよい。また、音声認識システム５と放送局４の専用システムとは、同一のシステムであってもよい。音声認識システム５と放送局４とが別の場所に配置される場合、放送局４からの音声データは、インターネット２を介して送信されてもよいし、専用ネットワークを介して送信されてもよい。

次に、字幕入力者端末６、ブロックチェーンネットワーク３内のノード、及び、放送局内の字幕付与システムの構成について説明する。図３は、字幕入力者端末６の機能構成の一例を示すブロック図である。

図３に示されるように、字幕入力者端末６は、処理装置６１と、入力装置６２と、表示装置６３と、スピーカ６４と、通信装置６５とを備える。処理装置６１は、少なくとも１つのプロセッサとメモリとを含む。プロセッサによって所定のプログラムが実行されることにより、プロセッサは、音声再生手段６６、入力文字送信手段６７、及び、特典管理手段６８として機能する。

通信装置６５は、放送局４からの音声情報（映像情報も含む場合は映像情報も）を受信し、処理装置６１に当該音声情報を出力する。処理装置６１の音声再生手段６６は、当該音声情報に基づいて音声を再生し、スピーカ６４に出力する。また、放送局４から映像情報が送信される場合、音声再生手段６６は、当該映像情報を再生して表示装置６３に出力する。

入力装置６２は、例えばキーボードである。入力装置６２は、字幕入力者によって入力された情報を処理装置６１に出力する。処理装置６１の入力文字送信手段６７は、入力装置６２からの情報に基づいて、字幕入力者によって入力された入力文字を設定し、入力文字を通信装置６５を介してブロックチェーンＮＷ３に送信する。具体的には、入力文字送信手段６７は、入力文字を含むトランザクションを発行することにより、入力文字をブロックチェーンＮＷ３に送信する。入力文字送信手段６７は、どのようなタイミングで入力文字を送信してもよい。例えば、入力文字送信手段６７は、字幕入力者によって送信の指示が行われた場合に、入力文字を送信してもよい。また、入力文字送信手段６７は、所定の時間間隔（例えば、５秒間隔や１０秒間隔）で入力文字を送信してもよい。また、入力文字送信手段６７は、字幕入力者によって入力された入力文字列を文節に区切り、文節毎に送信してもよい。

特典管理手段６８は、放送局４によって字幕入力者に付与されたトークン（特典の一例）を管理する。具体的には、各字幕入力者は、固有のウォレット（アドレス）を有している。各字幕入力者は、自分自身に固有のウォレットを他の字幕入力者に開示することなく、自分自身に固有のウォレットを管理する。特典管理手段６８は、この字幕入力者に固有のウォレットを記憶および管理する。特典管理手段６８は、ウォレットに基づいてブロックチェーンＮＷ３にアクセスすることで、字幕入力者に付与されたトークンを参照する。これにより、字幕入力者は、自身が現在保有しているトークンの残高を確認することができる。また、特典管理手段６８は、字幕入力者からの指示に基づいて、トークンを他のユーザに送信する（所有権を移転させる）ためのトランザクションをブロックチェーンＮＷ３に送信する。また、特典管理手段６８は、字幕入力者からの指示に基づいて、トークンを他のアイテム（例えば、商品、放送局が有する映像や音楽等のコンテンツ、他の仮想通貨、法定通貨等）と交換するためのトランザクションをブロックチェーンＮＷ３に送信する。これにより、字幕入力者は、トークンを他のユーザに送信したり、トークンを他のアイテムと交換したりすることができる。

図４は、ブロックチェーンＮＷ３内のノードの機能構成の一例を示すブロック図である。ブロックチェーンＮＷ３内には複数のノードがあり、各ノードＮは、Ｐ２Ｐ（ＰｅｅｒｔｏＰｅｅｒ）で接続されている。

図４に示されるように、各ノードＮは、少なくとも１つのプロセッサ３１と、メモリ３２と、通信装置３３と、記憶装置３４とを備える。通信装置３３は、音声認識システム５からの音声認識結果を受信したり、字幕入力者端末６からの入力文字を受信したり、これら受信した情報を他のノードＮに伝播させたりする。また、各ノードの記憶装置３４には、字幕判定の結果や各字幕入力者に付与された特典に関する情報が記憶される。

ブロックチェーンＮＷ３の各ノードのメモリ３２には、ブロックチェーンＮＷ３に参加するための参加プログラムが予めインストールされている。また、各ノードのメモリ３２には、上述した字幕判定を行うための字幕判定プログラム（スマートコントラクト）が予め配信されている。

プロセッサ３１は、メモリ３２に記憶された参加プログラムを実行することにより、ブロックチェーンＮＷ３内の各ノードとピア・ツー・ピアで通信したり、仮想通貨の送金（トークンの付与や交換）を行ったりする。また、プロセッサ３１は、参加プログラムを実行することにより、ノードに送信されたトランザクションをブロックチェーンＮＷ３に取り込むためのマイニングを行ったりする。

また、プロセッサ３１は、メモリ３２に記憶された字幕判定プログラムを実行することにより、上述した字幕判定を行う。具体的には、プロセッサ３１は、音声認識システム５からの音声認識結果と各字幕入力者端末６からの入力文字とに基づいて、字幕判定を行うことにより、映像に付与する字幕文字の候補を判定する。この字幕判定の詳細については後述する。

図５は、放送局内の字幕付与システムの機能構成の一例を示すブロック図である。字幕付与システムは、字幕文字の候補の中から字幕文字を選択したり、映像に字幕を付与したりするためのシステムである。字幕付与システムは、複数の装置によって構成されてもよいし、１つの装置によって構成されてもよい。字幕付与システムは、少なくとも１つのプロセッサと、メモリと、通信装置とを備える。字幕付与システムの少なくとも１つのプロセッサによって所定のプログラムが実行されることにより、当該プロセッサは、図５に示す音声再生手段７１、字幕候補表示手段７２、字幕文字決定手段７３、及び、字幕付与手段７４として機能する。

音声再生手段７１は、マイクによって集音された音声を再生する。具体的には、音声再生手段７１は、字幕入力者に配信される音声よりも所定時間遅れて、マイクで集音された音声を再生する。

字幕候補表示手段７２は、字幕文字の候補を表示装置に表示する。ここで表示される字幕文字の候補は、ブロックチェーンＮＷ３からの字幕判定の結果であり、字幕入力者によって入力された文字である。例えば、字幕候補表示手段７２は、複数の字幕文字の候補を１画面に表示する。なお、ここで表示される字幕文字の候補と、音声再生手段７１によって再生される音声とは、同期される。すなわち、出力されている音声に対応する文字が表示されるように、字幕文字の候補が表示される。これにより、番組関係者が字幕文字を決定する際に、出力されている音声を聞きながら表示されている字幕文字の候補の中から何れかを選択することができる。

字幕文字決定手段７３は、例えば番組関係者からの入力に応じて、複数の字幕文字の候補の中から、実際に映像に付与する字幕文字を決定する。なお、字幕文字決定手段７３は、番組関係者からの入力によらずに自動で、実際に映像に付与する字幕文字を決定してもよい。字幕付与手段７４は、字幕文字決定手段７３によって決定された字幕文字を映像に付与する。

次に、情報処理システム１において行われる処理の流れについて説明する。図６は、情報処理システム１において行われる処理の一例を示す図である。

まず、放送局４は、実際に地上波等で番組の生放送を行う前に、インターネット２を介して、少なくとも音声データを字幕入力者端末６および音声認識システム５に配信する（ステップＳ０）。この音声データの配信は、番組が継続している間、ストリーミング形式で行われる。例えば、生放送の番組中にマイクによって集音された音声がリアルタイムで音声データに変換され、当該音声データがインターネット２を介して字幕入力者端末６及び音声認識システム５に送信される。地上波による映像及び音声の放送は、この字幕入力者への音声配信よりも例えば３０秒遅れて行われる。

音声認識システム５は、放送局４からの音声データを受信し、音声認識を行う（ステップＳ１）。音声認識システム５は、音声認識の結果として文字情報を出力する。そして、音声認識システム５は、その音声認識結果を含むトランザクションをブロックチェーンＮＷ３に送信する（ステップＳ２）。

また、各字幕入力者端末６は、放送局４からの音声データを受信し、音声を再生する。各字幕入力者は、再生された音声を聞いて、字幕入力者端末６の入力装置６２を用いて文字を入力する。そして、字幕入力者端末６は、字幕入力者によって入力された入力文字を含むトランザクションをブロックチェーンＮＷ３に送信する（ステップＳ４）。例えば、字幕入力者端末６は、トークンを送信するためのトランザクションに、入力文字のデータを含めて送信してもよい。当該トランザクションでは、トークンの送信元として当該字幕入力者端末６を所有する字幕入力者が指定され、トークンの送信先として放送局４が指定されてもよい。すなわち、トークンは字幕入力者が入力文字を送信するための媒体として機能してもよい。なお、入力文字は、トークンを送信するためのトランザクションに限らず、他のトランザクションに含められて、ブロックチェーンＮＷ３に送信されてもよい。

ブロックチェーンＮＷ３（内のノード）は、各字幕入力者端末６からの入力文字と、音声認識システム５からの音声認識結果とに基づいて、字幕判定を行う（ステップＳ５）。例えば、ブロックチェーンＮＷ３は、入力文字を受け付ける受付時間を設定し、受付時間内に受信した入力文字に基づいて字幕判定を行ってもよい。受付時間は、例えば、予め定められた時間間隔（例えば１５秒間）に基づいて設定されてもよい。また、受付時間は、例えば、音声認識結果を受信してからの所定時間（例えば、１５秒）であってもよい。

ステップＳ５の字幕判定では、映像に付与する字幕文字の候補が決定される。決定される字幕文字の候補は、１つでもよいし複数でもよい。なお、ステップＳ５の字幕判定の詳細については後述する。

字幕判定が行われると、字幕文字の候補を示す字幕情報が放送局４に送られる（ステップＳ６）。次に、放送局４において、実際に映像に付与する字幕文字を決定する（ステップＳ７）。すなわち、ステップＳ５で判定された１又は複数の字幕文字の候補のうちの何れが、実際に映像に付与する字幕文字として決定される。実際に映像に付与する字幕文字の決定は、放送局４の番組関係者によって行われてもよい。例えば、字幕文字の候補が表示装置に表示され、放送局４の番組関係者が、表示された字幕文字の候補の中から何れかを選択することにより、字幕文字が決定される。なお、番組関係者は、字幕文字の候補の中に適切な文字が無いと判断した場合は、自身で字幕文字を修正又は入力してもよい。また、送信された字幕文字の候補が自動的に字幕文字として決定されてもよい。

字幕文字が決定された場合、決定された字幕文字が、映像に付与される（ステップＳ８）。そして、字幕が付与された映像が例えば地上波を通じて放送される。

ステップＳ１〜ステップＳ８は、番組の放送中、所定の時間間隔で繰り返し行われる。これにより、生放送の番組にリアルタイムで字幕が付与され、視聴者は、字幕付きの番組を視聴することができる。

例えば番組終了後、各字幕入力者に対して、入力文字が字幕文字として採用されたか否かが通知される（ステップＳ９）。例えば、字幕文字として採用された文字数や文節数が各字幕入力者に通知される。この通知は、例えば、Ｅメール等により行われてもよいし、ブロックチェーンＮＷ３を介して行われてもよい。また、採用された入力文字に応じて、特典が付与される（ステップＳ１０）。例えば、付与される特典は、情報処理システム１内においてのみ利用可能なトークン（独自の仮想通貨）である。具体的には、トークンを字幕入力者に送信するためのトランザクションがブロックチェーンＮＷ３に送信される。このトランザクションには、特典の送信先である字幕入力者に対応するウォレットアドレスと、トークンの量と、特典の送信元である放送局４に対応するウォレットアドレスとが含まれる。なお、付与される特典は、法定通貨と交換可能な仮想通貨であってもよいし、電子マネーであってもよいし、情報処理システム１内において利用可能なポイントであってもよいし、情報処理システム１外において利用可能なポイントであってもよい。

ブロックチェーンＮＷ３内のノードがマイニングに成功し、トランザクションがブロックチェーンＮＷ３に組み込まれた場合、字幕入力者は、自身に固有のウォレットアドレスを用いてブロックチェーンＮＷ３にアクセスすることで、付与されたトークンを参照したり、トークンの残高を確認したりすることができる。また、字幕入力者は、ブロックチェーンＮＷ３にアクセスして、トークンをアイテムに交換することができる。

例えば、字幕入力者は、自身が有するトークンを放送局に送金する代わりに、放送局からアイテム（例えば、放送局が提供するコンテンツ）を入手する。例えば、字幕入力者からトークンが送信されたことを放送局が確認できた場合、放送局から字幕入力者に対して、コンテンツを視聴するためのデータ（データ本体あるいは暗号化されたコンテンツデータを復号化するための鍵）が送信される。これにより、字幕入力者は、トークンと引き換えにコンテンツを視聴することができる。

このトークンとアイテムとの交換は、ブロックチェーンＮＷ３におけるスマートコントラクトによって自動的に行われてもよい。例えば、字幕入力者は、トークンとアイテムとの交換を行う場合、字幕入力者端末６を用いて、自身が有するトークンを放送局に送金するためのトランザクションをブロックチェーンＮＷ３に送信する。所定の条件が満たされている場合に（例えば、送金されたトークンが指定されたアイテムの価格以上であり、かつ、指定されたアイテムが利用可能な場合に）、ブロックチェーンＮＷ３は、送金されたトークンとアイテムとの交換が成立したと見なし、コンテンツデータをダウンロードするためのデータ（例えば、暗号化されたコンテンツデータを復号化するためのデータ）を字幕入力者端末６に送信する。

なお、本実施形態では、実際に番組が地上波で放送されるよりも前に、番組内の音声が字幕入力者に配信されることとした。番組内の音声に対して字幕文字が遅れて表示されることが許容されるのであれば、実際に番組が地上波で放送されるよりも前に音声が字幕入力者に配信される必要はない。この場合、字幕入力者は実際に地上波により放送された番組を視聴しながら文字入力を行う。字幕入力者が入力した入力文字に対して字幕判定が行われ、字幕が付与されて、字幕付きの映像が放送される。この場合、字幕入力者が文字を入力してから字幕文字が付与されるまでに時間がかかるため、音声に対して、字幕文字が遅れて表示される。

また、字幕入力者に対するトークンの付与のタイミングは番組終了後に限らない。例えば、字幕判定が行われる毎に、トークンが付与されてもよい。この場合、字幕文字として採用される毎に、トークンを付与するためのトランザクションがブロックチェーンＮＷ３に送信（投函）される。

（字幕判定の説明）
次に、ステップＳ５で行われる字幕判定について説明する。図７は、字幕判定の一例を示す図である。図７において、横方向は時間軸を示す。番組出演者（例えば、アナウンサー）が、例えば「明日の東京の天気は晴れです」という言葉を発したとする。この場合、例えば、番組出演者が発した言葉は、「明日の」という文節Ｐ１と、「東京の」という文節Ｐ２と、「天気は」という文節Ｐ３と、「晴れ」という文節Ｐ４と、「です」という文節Ｐ５とに分けられる。

この番組出演者の発声に応じて、字幕入力者Ａ〜Ｃは、自身の字幕入力者端末６を用いて、文字を入力する。字幕入力者によって入力された入力文字は、ブロックチェーンＮＷ３に送信される。また、音声認識システム５は、この番組出演者の発声に応じて、音声を認識して音声を文字に変換する。音声認識システム５による音声認識の結果は、ブロックチェーンＮＷ３に送信される。

例えば、字幕入力者Ａは、出演者の発声「明日の」に対応する文字として「明日の」という文字Ｐ１Ａを入力し、出演者の発声「東京の」に対応する文字として「東京の」という文字Ｐ２Ａを入力し、出演者の発声「天気は」に対応する文字として「電気は」という文字Ｐ３Ａを入力し、出演者の発声「晴れ」に対応する文字として「晴れ」という文字Ｐ４Ａを入力したとする。その後、文字入力者Ａは、出演者の発声「です」に対応する文字を受付時間内に入力しなかった（できなかった）とする。

また、字幕入力者Ｂは、出演者の発声「明日の」に対応する文字として「明日の」という文字Ｐ１Ｂを入力し、出演者の発声「東京の」に対応する文字を入力せず、その後、出演者の発声「天気は」に対応する文字として「天気は」という文字Ｐ３Ｂを入力し、出演者の発声「晴れ」に対応する文字として「あれ」という文字Ｐ４Ｂを入力し、さらにその後、出演者の発声「です」に対応する文字として「です」という文字Ｐ５Ｂを入力したとする。

また、字幕入力者Ｃは、出演者の発声「明日の」に対応する文字を入力せず、出演者の発声「東京の」に対応する文字として「東京の」という文字Ｐ２Ｃを入力し、出演者の発声「天気は」に対応する文字として「天気は」という文字Ｐ３Ｃを入力し、出演者の発声「晴れ」に対応する文字として「晴れ」という文字Ｐ４Ｃを入力し、さらにその後、出演者の発声「です」に対応する文字として「ｄす」という文字Ｐ５Ｃを入力したとする。

一方、音声認識システム５は、出演者の発声「明日の」に対応する文字として「明日の」という文字Ｐ１Ｓを認識し、出演者の発声「東京の」に対応する文字として「東京の」という文字Ｐ２Ｓを認識し、出演者の発声「天気は」に対応する文字として「天気は」という文字Ｐ３Ｓを認識し、出演者の発声「晴れ」に対応する文字として「晴れ」という文字Ｐ４Ｓを認識し、出演者の発声「です」に対応する文字として「です」という文字Ｐ５Ｓを認識したとする。

この場合、ブロックチェーンＮＷ３は、複数の字幕入力者によって入力された入力文字について、最も共通点の多い文字を字幕文字の候補として採用する。例えば、複数の字幕入力者によって同じ文字（文字列）が入力された場合には、その入力された文字（文字列）が字幕文字の候補として採用される。複数の字幕入力者によって入力された文字が一致しているかどうかは、１文字毎に判定してもよいし、文節毎に判定してもよい。また、例えば、Ｎ名の字幕入力者によって文字Ｘが入力され、Ｍ名の字幕入力者によって別の文字Ｙが入力された場合、同じ文字を入力した字幕入力者の数が多い方を、字幕文字の第１の候補として採用してもよい。この場合、２番目に多い文字を字幕文字の第２の候補として採用してもよい。

例えば、図７に示すように、出演者の発声のうちの１番目の文節Ｐ１について、字幕入力者ＡおよびＢが「明日の」という文字を入力しており、他の字幕入力者は文字を入力していない。このため、ブロックチェーンＮＷ３は、１番目の文節Ｐ１について、「明日の」という文字を字幕文字の候補として採用する。このとき、ブロックチェーンＮＷ３は、音声認識システム５による音声の認識結果を参照して、字幕文字の候補を採用する。この例では、音声認識システム５は、１番目の文節Ｐ１に対して「明日の」という文字を認識しており、字幕入力者ＡおよびＢが入力した入力文字と一致する。このため、ブロックチェーンＮＷ３は、１番目の文節Ｐ１に対する字幕文字の候補として、「明日の」という文字を採用する。仮に、音声認識システム５による認識結果と、複数の字幕入力者による入力文字とが一致しない場合（又は類似しない場合）、ブロックチェーンＮＷ３は、複数の字幕入力者によって入力された入力文字を優先して字幕文字の候補を採用する。あるいは、この場合、ブロックチェーンＮＷ３は、音声認識システム５による認識結果を優先して字幕文字の候補を採用してもよい。

なお、各字幕入力者が文字を入力するタイミングは、各字幕入力者によって異なるが、ブロックチェーンＮＷ３のノードは、各字幕入力者がどのような順番で文字を入力したかを、各端末から送信されるトランザクションのシーケンス番号に基づいて判断することができる。また、各字幕入力者は、出演者の発声の全てについて文字を入力するとは限らない。例えば、字幕入力者Ｃは、出演者の発声の１番目の文節Ｐ１に対応する文字を入力せず、２番目の文節Ｐ２に対応する文字Ｐ２Ｃを最初に入力している。この場合、ブロックチェーンＮＷ３は、他の字幕入力者によって入力された入力文字、および、音声認識システム５による認識結果に基づいて、字幕入力者Ｃが、出演者の発声の１番目の文節Ｐ１に対応する文字を入力しているか否かを判定することができる。例えば、ブロックチェーンＮＷ３は、各字幕入力者によって入力された入力文字について、他の入力者の入力文字、及び／又は、音声認識システム５による認識結果との類似度を算出し、類似度が所定の閾値よりも低い場合は、その入力文字は、出演者の別の発声に対応する文字であると判定してもよい。

次に、出演者の発声の２番目の文節Ｐ２について、字幕入力者ＡおよびＣが「東京の」という文字を入力しており、音声認識結果も同じであるため、２番目の文節Ｐ２について、「東京の」という文字が字幕文字の候補として採用される。また、３番目の文節Ｐ３について、字幕入力者ＢおよびＣが「天気は」という文字を入力しており、字幕入力者Ａは誤って「電気は」という文字を入力しており、音声認識結果は「天気は」である。この場合、２名の字幕入力者が同じ文字を入力しているため、他の１名の字幕入力者による入力文字は採用されず、２名の字幕入力者が入力した文字が字幕文字の候補として採用される。

同様に、４番目の文節Ｐ４について、字幕入力者ＡおよびＣは「晴れ」という文字を入力しており、字幕入力者Ｂは誤って「あれ」という文字を入力している。この場合、字幕入力者ＡおよびＣによって入力された入力文字が字幕文字の候補として採用される。また、５番目の文節Ｐ５について、字幕入力者Ａは文字を入力せず、字幕入力者Ｂは「です」という文字を入力しており、字幕入力者Ｃは誤って「ｄす」という文字を入力している。この場合、音声認識システム５の音声認識結果と、各字幕入力者によって入力された入力文字とが比較され、字幕文字の候補が決定される。この例では、字幕入力者Ｂの入力文字と音声認識システム５の音声認識結果とが一致するため、字幕入力者Ｂによって入力された入力文字が字幕文字の候補として採用される。

なお、上記字幕判定は、放送局４（内の字幕付与システム）又は音声認識システム５において行われてもよい。図８は、音声認識システムにおいて字幕判定が行われる場合の情報処理システム１の構成を示す図である。

図８に示すように、放送局４内の字幕付与システムと、音声認識システムとは同一主体又は別主体により管理され、同じ又は異なる場所に配置される。上記と同様に、放送局から音声認識システムにマイクで集音された音声が配信されるとともに、各字幕入力者に対して当該音声が配信される（図８の（１））。音声認識システムは、配信された音声に基づいて音声認識を行う（図８の（２））。また、各字幕入力者は、配信された音声に基づいて文字を入力し、当該入力文字がインターネットを介して音声認識システムに送信される（図８の（３））。

音声認識システムは、受信した字幕入力者からの入力文字と、音声認識結果とに基づいて、上述した字幕判定を行い（図８の（４））、その字幕判定の結果としての字幕文字の候補を放送局に送信する（図８の（５））。次に、放送局において字幕文字が決定され、映像に字幕文字が付与される（図８の（６））。そして、字幕付きの映像が放送される。また、番組終了後（又は、字幕判定が行われる毎に）、字幕文字の採否結果が通知される（図８の（７））。また、番組終了後（又は、字幕判定が行われる毎に）、字幕文字として採用された文字を入力した字幕入力者に対してトークンが付与される（図８の（８））。具体的には、放送局から字幕入力者へトークンを送信するためのトランザクションが、ブロックチェーンＮＷに送信される。なお、このトランザクションの発行は、放送局内の番組関係者が端末を用いて手動で行ってもよいし、番組終了後（又は、字幕判定が行われる毎に）、放送局内のシステムによって自動で行われてもよい。ブロックチェーンＮＷでは、送信されたトランザクションがブロックに取り込まれ、字幕入力者に対して付与されたトークンがブロックチェーンＮＷに書き込まれる。字幕入力者は、ブロックチェーンＮＷにアクセスすることで、付与されたトークンを確認したり、トークンを他のアイテムに交換したりする。

（字幕入力者端末の処理）
次に、字幕入力者端末６において行われる処理の詳細について説明する。図９は、字幕入力者端末６において行われる処理の一例を示すフローチャートである。字幕入力者端末６（以下、「端末６」と表記する）のプロセッサが所定のプログラムを実行することにより、図９に示す処理が行われる。

図９に示すように、端末６は、例えばインターネットを介して、放送局から配信された音声データを取得する（ステップＳ１００）。次に、端末６は、取得した音声データに基づいて音声を再生する（ステップＳ１０１）。

続いて、端末６は、字幕入力者によって文字が入力されたか否かを判定する（ステップＳ１０２）。文字が入力された場合（ステップＳ１０２：ＹＥＳ）、端末６は、入力文字をメモリに記憶する（ステップＳ１０３）。なお、字幕入力者が文字を入力する毎に、端末６の表示装置６３において、入力された文字が表示される。なお、表示装置６３には、利用頻度の高い語を表すアイコンが表示され、字幕入力者が当該アイコンを選択すると当該アイコンに対応する文字が入力文字として入力されてもよい。例えば、アイコンとして、一人称、二人称を表す語、天候を表す語、あいさつ文、擬音語（例えば、天候や街の音を表す語）等を表すアイコンが表示されてもよい。

ステップＳ１０３の処理を実行した場合、又は、ステップＳ１０２でＮＯと判定した場合、端末６は、入力文字をブロックチェーンＮＷ３に送信するか否かを判定する（ステップＳ１０４）。例えば、端末６は、表示装置６３に表示された送信ボタンが字幕入力者によって押された場合、あるいは入力装置６２のリターンキーが押下された場合、入力文字をブロックチェーンＮＷ３に送信すると判定する。また、端末６は、音声データを受信してから所定時間が経過した場合に、入力文字をブロックチェーンＮＷ３に送信すると判定してもよい。

入力文字を送信すると判定した場合（ステップＳ１０４：ＹＥＳ）、端末６は、入力文字をブロックチェーンＮＷ３に送信する（ステップＳ１０５）。具体的には、端末６は、入力文字を含むトランザクションをブロックチェーンＮＷ３に送信する。例えば、端末６は、字幕入力者が有する独自のトークンを放送局４に送信するためのトランザクションに入力文字を含めて送信する。

ステップＳ１０５の処理を実行した場合、又は、ステップＳ１０４でＮＯと判定した場合、端末６は、字幕入力を終了するか否かを判定する（ステップＳ１０６）。例えば、字幕入力者によって字幕入力を終了する指示が行われた場合、端末６は、ステップＳ１０６においてＹＥＳと判定する。あるいは、放送局４から番組の終了を示す情報を受信した場合、端末６は、ステップＳ１０６においてＹＥＳと判定してもよい。

ステップＳ１０６でＮＯと判定した場合、端末６は、再びステップＳ１００の処理を実行する。

ステップＳ１０６でＹＥＳと判定した場合、端末６は、字幕入力者からの操作に基づいて、自身が有する特典（トークン）を確認するか否かを判定する（ステップＳ１０７）。例えば、トークンを確認するための操作が行われた場合（ステップＳ１０７：ＹＥＳ）、端末６は、付与されたトークンを参照するためにブロックチェーンＮＷ３にアクセスする（ステップＳ１０８）。これにより、端末６において、字幕入力者は、自身が保有するトークンの残高を確認することができる。以上で図９の説明を終了する。

（音声認識システムの処理）
次に、音声認識システム５において行われる処理の詳細について説明する。図１０は、音声認識システム５において行われる処理の一例を示すフローチャートである。音声認識システム５には、音声認識を行うためのプログラムが記憶されている。音声認識システム５のプロセッサが当該プログラムを実行することにより、図１０に示す処理が行われる。

図１０に示すように、音声認識システム５は、放送局から配信された音声データを取得する（ステップＳ２００）。次に、音声認識システム５は、取得した音声データに基づいて音声認識処理を行い、音声認識処理の結果としての文字を出力する（ステップＳ２０１）。

続いて、音声認識システム５は、音声認識結果をブロックチェーンＮＷ３に送信するか否かを判定する（ステップＳ２０２）。音声認識結果を送信すると判定した場合（ステップＳ２０２：ＹＥＳ）、音声認識システム５は、音声認識結果をブロックチェーンＮＷ３に送信する（ステップＳ２０３）。例えば、音声認識システム５は、音声認識処理の結果としての文字を出力する毎に音声認識結果を送信してもよいし、文節毎に音声認識結果を送信してもよい。あるいは、音声認識システム５は、所定の時間間隔で音声認識結果を送信してもよい。

ステップＳ２０３の処理を実行した場合、又は、ステップＳ２０２でＮＯと判定した場合、音声認識システム５は、ステップＳ２００の処理を再び実行する。以上で図１０の説明を終了する。

（字幕判定・特典付与処理の詳細）
次に、上記字幕判定処理および特典付与のための処理の詳細について説明する。図１１は、情報処理システム１において行われる字幕判定処理および特典付与のための処理の一例を示すフローチャートである。なお、字幕判定処理および特典付与のための処理は、ブロックチェーンＮＷ３内の各ノードが行うものとして説明する。各ノードには、上記字幕判定処理および特典付与のための処理を行うためのプログラム（スマートコントラクト）が予め配置されているものとする。また、ノードは、図１１に示す処理を所定の時間間隔で繰り返し実行するものとする。

図１１に示すように、ブロックチェーンＮＷ３の各ノード（以下、単に「ノード」という）は、字幕入力を受け付けるか否かを判定する（ステップＳ３００）。例えば、放送局４では、番組の放送を開始する場合、ブロックチェーンＮＷ３に対してこれからその番組用に字幕入力を受け付けるように指示する。ノードは、その指示に応じて、番組の開始から終了までの間、字幕入力者からの字幕入力を受け付ける。

ステップＳ３００でＮＯと判定した場合、ノードは、次にステップＳ３０６の処理を行う。

ステップＳ３００でＹＥＳと判定した場合、ノードは、音声認識システム５によって認識された音声認識結果を取得する（ステップＳ３０１）。また、ノードは、字幕入力者端末６において字幕入力者によって入力された入力文字を取得する（ステップＳ３０２）。

次に、ノードは、字幕判定処理を行う（ステップＳ３０３）。具体的には、ノードは、音声認識システム５からの音声認識結果と、複数の字幕入力者端末６からの入力文字とに基づいて、上述した方法により字幕文字の候補を判定する。

続いて、ノードは、ステップＳ３０３の字幕判定処理の結果を放送局４の字幕付与システムに送信する（ステップＳ３０４）。具体的には、放送局４の字幕付与システムは所定の時間間隔でブロックチェーンＮＷ３にアクセスして、字幕判定結果を取得する。そして、番組関係者は、当該字幕付与システムを用いて、字幕判定処理で判定された字幕文字の候補の中から何れか１つを字幕文字として決定する。これにより、映像に付与される字幕文字が決定される。字幕文字が決定されると、決定された字幕文字が字幕付与システムによって映像に付加され、字幕付きの映像として放送される。なお、この字幕文字の決定は、人の入力を介さずにブロックチェーンＮＷ３のノードにおいて自動で行われてもよいし、放送局４内の字幕付与システムにおいて自動で行われてもよい。

放送局４内で字幕文字が決定された場合、ステップＳ３０３で判定された字幕文字の候補の中から何れが決定されたかを示す情報が放送局４の字幕付与システムからブロックチェーンＮＷ３に送信される。当該情報を受信したことに応じて、ノードは、決定された字幕文字をブロックチェーンＮＷ３内に記録する（ステップＳ３０５）。また、ノードは、字幕入力者毎に、入力した文字の文字数、字幕文字として採用された文字数をブロックチェーンＮＷ３に記録する。なお、決定された字幕文字が複数の字幕入力者によって入力された場合、複数の字幕入力者に対して、字幕文字として採用された文字数が加算される。

図１２は、字幕文字の決定に応じてブロックチェーンＮＷ３に記録される情報の一例を示す図である。例えば、字幕入力者Ａ、Ｂ、Ｃが現在の番組の字幕入力に参加している場合、字幕入力者Ａが入力した文字数、及び、その入力文字数のうち字幕文字として採用された文字数が記録される。また、字幕入力者Ｂ及びＣについても、入力文字数および採用文字数が記録される。

このように、各字幕入力者が入力した文字のうち字幕文字として採用された文字の文字数が、ブロックチェーンＮＷ３に記録される。これにより、透明性、公正さを担保することができる。

次に、ノードは、字幕入力者に対して特典を付与するか否かを判定する（ステップＳ３０６）。特典を付与すると判定した場合（ステップＳ３０６：ＹＥＳ）、ノードは、字幕入力者に対して特典を付与する（ステップＳ３０７）。付与される特典の量は、字幕入力者が入力した文字のうち、字幕文字として決定された文字数に応じて決定される。

例えば、放送局４の字幕付与システムから、番組終了後に字幕入力者に対して特典を付与するためのトランザクションがブロックチェーンＮＷ３に送信される。このトランザクションには、特典の送信元（放送局）に関する情報、特典の送信先（字幕入力者）に関する情報、及び、送信する特典の量に関する情報が含まれる。例えば、放送局４から字幕入力者Ａに対して、その番組内で採用された採用文字数「１００」に応じて、「１００」のトークンが送信されてもよい。このトランザクションに応じて、ノードは、トランザクションをブロックチェーンＮＷ３に取り込むためのマイニングを行う。ノードによるマイニングが成功すると、ブロックチェーンＮＷ３内にトランザクションが取り込まれる。これにより放送局４から字幕入力者に対する特典の送信が完了する。すなわち、放送局４が有する特典の量が減少するとともに、字幕入力者が有する特典の量が増加する。

なお、番組関係者による入力に応じて放送局４の字幕付与システムがブロックチェーンＮＷ３にトランザクションを送信することにより、字幕入力者に対する特典の付与が行われてもよい。また、放送局４の字幕付与システムが自動でブロックチェーンＮＷ３にトランザクションを送信することにより、字幕入力者に対する特典の付与が行われてもよい。

また、ブロックチェーンＮＷ３において、自動的に字幕入力者に対する特典の付与が行われてもよい。例えば、番組の開始が指示されてから番組終了時間が経過した場合、あるいは、放送局４からの番組終了の指示を受信した場合、ブロックチェーンＮＷ３のノードは、ブロックチェーンＮＷ３内に記録した字幕入力者毎の採用文字数に応じて、各字幕入力者に対して、自動的に特典を付与してもよい。以上で、図１１に示す処理の説明を終了する。

なお、図１１に示す処理の一部又は全部は、情報処理システム１内の何れの装置において実行されてもよい。

例えば、ブロックチェーンＮＷ３外の音声認識システム５が、字幕入力者からの入力文字を取得し、取得した入力文字と、音声認識結果とに基づいてステップＳ３０３の字幕判定処理を行い、字幕文字を決定してもよい。また、放送局４内の端末が、字幕入力者からの入力文字を取得し、取得した入力文字と、音声認識結果とに基づいて字幕判定処理を行い、字幕文字を決定してもよい。この場合、音声認識システム５又は放送局４内の情報処理装置において決定された字幕文字（すなわち、実際に字幕として付与される文字）は、ブロックチェーンＮＷ３に送信されて記録されてもよい。

また、他の実施形態では、音声認識システム５はなくてもよい。すなわち、複数の字幕入力者が入力した入力文字に基づいて字幕判定が行われ、字幕文字が決定されてもよい。

また、上記実施形態では、文節毎に字幕判定を行う例について説明したが、他の実施形態では、複数の字幕入力者が入力した入力文字について、１文字ずつ字幕判定が行われてもよい。また、上記実施形態では、複数の字幕入力者によって入力された入力文字について、最も共通点の多い文字を字幕文字の候補として決定することとしたが、他の実施形態では、字幕判定はこの方法に限らない。例えば、複数の字幕入力者によって入力された入力文字の類似度を算出し、類似度に基づいて字幕文字の候補を決定してもよい。

また、上記実施形態では、複数の字幕入力者によって入力された入力文字がそのまま字幕文字の候補として決定されたが、他の実施形態では、入力文字について補正を行い、字幕文字として決定してもよい。例えば、複数の字幕入力者によって入力された入力文字について、予め記憶された辞書を参照し、その結果に応じて入力文字を補正し、字幕文字（又は字幕文字の候補）を決定してもよい。例えば、番組の内容に応じた専門用語を記憶した辞書を参照してもよい。また、複数の字幕入力者によって入力された入力文字について、文脈から判断して補正を行ってもよい。このような入力文字の補正は、予め大量のデータをコンピュータに機械学習（例えばディープラーニング）させて得られた学習済みモデルを用いて行われてもよい。

また、上記実施形態では、決定された字幕文字や図１２に示した情報はブロックチェーンＮＷ３に記録されるものとしたが、これらの情報はブロックチェーンＮＷ３外の他のシステムにおいて記録されてもよい。

また、上記実施形態では、生放送の番組に字幕を付与する場合を想定したが、生放送の番組に限らず、録画放送の番組に字幕を付与する場合でも上記情報処理システム１が適用されてもよい。また、番組に限らず、ＣＭに対して上述した方法で字幕を付与してもよい。

また、上記実施形態では、複数の字幕入力者端末がインターネットに接続され、インターネットを介して入力文字を送信することとした。他の実施形態では、複数の字幕入力者端末と、字幕判定のためのシステムとは、インターネットに限らず、ＷＡＮ又はＬＡＮを介して接続されてもよい。

１情報処理システム
３ブロックチェーンＮＷ
４放送局
５音声認識システム
６字幕入力者端末

Claims

複数の入力者によって入力された入力文字をそれぞれ取得する取得手段と、
前記複数の入力者によって入力された入力文字のうち、何れの入力文字を字幕文字として採用するかを決定する字幕文字決定手段と、
前記字幕文字として採用された入力文字を入力した入力者に対して、特典を付与する特典付与手段と、を備える、情報処理システム。
前記複数の入力者に対して、マイクで集音された音声に基づく音声情報をリアルタイムで送信する送信手段を更に備え、
前記取得手段は、前記入力者が前記音声情報に応じてリアルタイムで入力した入力文字を取得し、
前記字幕文字決定手段は、前記複数の入力者が前記音声情報に基づいてリアルタイムで入力した入力文字のうち、何れの入力文字を字幕文字として採用するかを決定する、請求項１に記載の情報処理システム。
前記取得手段は、インターネットで接続された複数の入力者端末から、放送のための音声に応じて入力された前記入力文字を取得し、
前記字幕文字決定手段は、前記音声に対応する放送のための映像に付与する前記字幕文字を決定する、請求項１又は２に記載の情報処理システム。
前記字幕文字決定手段は、
前記複数の入力者によって入力された入力文字のうち、何れかの入力文字を字幕文字の候補として判定する字幕判定手段と、
前記字幕判定手段によって判定された字幕文字の候補のうち何れかを前記字幕文字として決定する決定手段と、を含む、請求項１から３の何れかに記載の情報処理システム。
前記字幕判定手段によって判定された字幕文字の候補を表示手段に表示させる候補表示制御手段を更に備え、
前記決定手段は、決定者の入力に基づいて、前記候補表示制御手段によって表示された前記字幕文字の候補のうち何れかを前記字幕文字として決定する、請求項４に記載の情報処理システム。
音声認識システムが前記音声情報に基づいて音声認識を行った結果を取得する音声認識結果取得手段を更に備え、
前記字幕文字決定手段は、前記音声認識結果取得手段によって取得された前記音声認識の結果と、前記複数の入力者によって入力された入力文字とに基づいて、前記字幕文字を決定する、請求項１から５の何れかに記載の情報処理システム。
前記字幕文字決定手段は、前記複数の入力者によって入力された入力文字のうち、共通する入力文字を前記字幕文字として決定する、請求項１から６の何れかに記載の情報処理システム。
前記特典付与手段は、前記特典として、仮想通貨、電子マネー、ポイント、及び法定通貨のうちの何れかを付与する、請求項１から７の何れかに記載の情報処理システム。
前記特典付与手段は、分散型台帳システムを介して、前記特典を付与する、請求項１から８の何れかに記載の情報処理システム。
情報処理システムにおいて行われる情報処理方法であって、
複数の入力者によって入力された入力文字をそれぞれ取得する取得ステップと、
前記複数の入力者によって入力された入力文字のうち、何れの入力文字を字幕文字として採用するかを決定する字幕文字決定ステップと、
前記字幕文字として採用された入力文字を入力した入力者に対して、特典を付与する特典付与ステップと、を含む、情報処理方法。
情報処理装置のコンピュータにおいて行われる情報処理プログラムであって、前記コンピュータを、
複数の入力者によって入力された入力文字をそれぞれ取得する取得手段と、
前記複数の入力者によって入力された入力文字のうち、何れの入力文字を字幕文字として採用するかを決定する字幕文字決定手段と、
前記字幕文字として採用された入力文字を入力した入力者に対して、特典を付与する特典付与手段として機能させる、情報処理プログラム。