JP2020024277A

JP2020024277A - データ・セグメンテーション装置

Info

Publication number: JP2020024277A
Application number: JP2018148249A
Authority: JP
Inventors: シャオリンワン; Xiaolin Wang; 将夫内山; Masao Uchiyama; 隅田　英一郎; Eiichiro Sumida; 英一郎隅田
Original assignee: National Institute of Information and Communications Technology
Current assignee: National Institute of Information and Communications Technology
Priority date: 2018-08-07
Filing date: 2018-08-07
Publication date: 2020-02-13
Anticipated expiration: 2038-08-07
Also published as: JP7113474B2

Abstract

【課題】シーケンスデータを構成する単位データ数に関係なく、リアルタイムでシーケンスデータ分割処理を実行することができるデータ・セグメンテーション装置を実現する。【解決手段】文章分割装置１００では、単位データである語データを入力とし、シーケンスデータの境界である文章境界が存在する位置および確率を示すベクトルを出力とするニューラルネットワークによるモデルを用いて学習処理を行い、学習済みモデルを取得する。そして、文章分割装置１００では、上記の学習済みモデルを用いて、文章境界を検出する処理を行う。つまり、文章分割装置１００では、各要素が文章の境界位置である確率を示すデータであるｍ個（ｍ：自然数）の要素の値を調べることで、文章境界が存在する位置を、容易かつ適切に検出することができる。【選択図】図１

Description

本発明は、時系列に連続するシーケンスデータを分割する方法に関し、例えば、文章分割方法（センテンス・セグメンテーション）についての技術に関する。

機械により同時通訳（リアルタイム通訳）を実現するためには、音声認識と機械翻訳とを実行する必要がある。つまり、自動同時通訳を実現するためには、自動音声認識と機械翻訳とを統合する必要がある。

自動音声認識により、取得されるデータ（文章データ）には、文章の区切り（セグメンテーション）が存在しない。一方、機械翻訳では、文章単位に区切られた文章（文章のデータ）が入力される必要がある。

近年、自動音声認識と機械翻訳とを統合するために、自動音声認識により取得されたデータ（文章データ）をリアルタイムで文章単位に分割し、文章単位に区切られた文章（文章のデータ）を取得するための技術が開発されている。

例えば、ｎ−ｇｒａｍ言語モデルを用いて会話音声の文章分割（センテンス・セグメンテーション）を自動で実行する技術がある（例えば、非特許文献1を参照）。

このようなｎ−ｇｒａｍ言語モデルを用いた手法では、文章の境界（区切り位置）を入力される単語間において発生する隠れイベント（ｈｉｄｄｅｎｅｖｅｎｔ）とみなす。そして、ｎ−ｇｒａｍ言語モデルを用いた手法では、文章の境界（区切り位置）が存在するとみなしたときと、文章の境界（区切り位置）が存在しないとみなしたときとの入力単語の尤度を計算する。具体的には、ｎ−ｇｒａｍ言語モデルを用いた手法では、入力される単語（単語データ）を、・・・，ｗ_ｔ−１，ｗ_ｔ，ｗ_ｔ＋１，・・・とし、次の２つの（仮定１）、（仮定２）を設定する。
（仮定１）：
単語ｗ_ｔの後の位置に文章の境界（区切り位置）は存在せず、入力データは、・・・，ｗ_ｔ−１，ｗ_ｔ，ｗ_ｔ＋１，・・・のままであるものとする。
（仮定２）：
単語ｗ_ｔの後の位置に文章の境界（区切り位置）が存在し、入力データは、・・・，ｗ_ｔ−１，ｗ_ｔ，＜／ｓ＞，＜ｓ＞，ｗ_ｔ＋１，・・・であるものとする。なお、「＜／ｓ＞」は、文章の終端位置を示し、「＜ｓ＞」は、文章の開始位置を示している。

ｎ−ｇｒａｍ言語モデルを用いた手法では、上記（仮定１）の確率と（仮定２）の確率とを比較することにより、文章の境界（区切り位置）を予測する。例えば、ｎ−ｇｒａｍ言語モデルを用いた手法では、下記数式により規定される単語ｗ_ｔの後に文章の境界が存在する信頼度ｓ_ｔに基づいて、文章の境界（区切り位置）を予測する。

ｏ：ｎ−ｇｒａｍ言語モデルのオーダー（ｏｒｄｅｒ）
なお、例えば、「ｐ（＜／ｓ＞｜ｗ_{ｔ−ｏ＋２} ^ｔ）」は、ｗ_{ｔ−ｏ＋２}，・・・，ｗ_ｔ−１，ｗ_ｔの後に、＜／ｓ＞が存在する確率を示している。他の表記についても同様である。

Andreas Stolcke and Elizabeth Shriberg. 1996. Automatic linguistic segmentation of conversational speech. In Spoken Language, 1996. ICSLP 96. Proceedings., Fourth International Conference on, volume 2, pages 1005-1008. IEEE.

しかしながら、上記のｎ−ｇｒａｍ言語モデルを用いた手法では、以下の２つの問題点がある。

第１に、ｎ−ｇｒａｍ言語モデルを用いた手法では、長い文章の依存性を把握することができない。文章は、通常、ｎ−ｇｒａｍのオーダーよりも長いので、ｎ単語より多い数の単語により構成される文章について、ｎ−ｇｒａｍ言語モデルを用いた手法では、当該文章の依存性を適切に判断することができず、その結果、文章の境界を適切に検出することができない。

第２に、ｎ−ｇｒａｍ言語モデルを用いた手法では、２つのシーケンス（上記（仮定１）および（仮定２））の同時確率（ｇｅｎｅｒａｔｉｖｅｐｒｏｂａｂｉｌｉｔｙ）を比較することで、文章の境界（区切り位置）を予測するが、同時確率（ｇｅｎｅｒａｔｉｖｅｐｒｏｂａｂｉｌｉｔｙ）を用いたモデル（生成モデル（ｇｅｎｅｒａｔｉｖｅｍｏｄｅｌ））の検出精度（例えば、文章の境界の検出精度）は、条件付き確率を用いたモデル（識別モデル（ｄｉｓｃｒｉｍｉｎａｔｉｖｅｍｏｄｅｌ））の検出精度よりも劣る。

そこで、本発明は、上記課題に鑑み、シーケンスデータ（例えば、文章）を構成する単位データ数（例えば、単語数）に関係なく、リアルタイムでシーケンスデータ分割処理（例えば、文章分割処理）を実行することができるデータ・セグメンテーション装置を実現することを目的とする。

上記課題を解決するための第１の発明は、ニューラルネットワーク部と、境界検出部と、を備えるデータ・セグメンテーション装置である。

ニューラルネットワーク部は、時系列に連続するデータであるシーケンスデータ（例えば、文章）を構成する単位データ（例えば、語データ）を入力し、各要素がシーケンスデータ（例えば、文章）の境界位置である確率を示すデータであるｍ個（ｍ：自然数）の要素と、もう１つの要素との合計ｍ＋１個の要素からなるｍ＋１次元ベクトルデータを出力する。

境界検出部は、ニューラルネットワーク部から出力されるｍ＋１次元ベクトルデータに基づいて、シーケンスデータ（例えば、文章）の境界位置を決定する。

このデータ・セグメンテーション装置では、例えば、語データ（例えば、単語データ）を入力とし、文章境界が存在する位置および確率を示すベクトルを出力とするニューラルネットワークによるモデルを用いて学習処理を行い、学習済みモデルを取得する。そして、このセンテンス・セグメンテーション装置では、上記の学習済みモデルを用いて、例えば、文章境界を検出する処理を行う。つまり、このセンテンス・セグメンテーション装置では、各要素が文章の境界位置である確率を示すデータであるｍ個（ｍ：自然数）の要素の値を調べることで、文章境界が存在する位置を、容易かつ適切に検出することができる。また、このデータ・セグメンテーション装置では、ｍ＋１次元ベクトルデータを出力するので、例えば、「もう１つの要素」をｍ＋１次元ベクトルの各要素の総和が、例えば「１」になるように設定することができる。これにより、例えば、ニューラルネットワーク部の出力層をソフトマックス層（活性化関数をＳｏｆｔｍａｘ関数とする出力層）として扱うことが容易となる。

第２の発明は、第１の発明であって、ニューラルネットワーク部は、再帰型ニューラルネットワークを含む。

これにより、このデータ・セグメンテーション装置では、例えば、長い文章の依存性も考慮することができ、文章を構成する単語数に関係なく、精度の高い文章境界検出処理、センテンス・セグメンテーション処理を実行することができる。

第３の発明は、第１または第２の発明であって、ｍ次元の閾値ベクトルを設定する閾値ベクトル設定部をさらに備える。

境界検出部は、ｍ次元の閾値ベクトルとｍ＋１次元ベクトルデータとに基づいて、シーケンスデータ（例えば、文章）の境界位置を決定する。

第４の発明は、第３の発明であって、境界検出部は、ｍ次元の閾値ベクトルのｍ個の要素と、ｍ＋１次元ベクトルデータのシーケンスデータ（例えば、文章）の境界位置である確率を示すデータであるｍ個の要素とを、それぞれ、比較することにより、シーケンスデータ（例えば、文章）の境界位置を決定する。

これにより、このデータ・セグメンテーション装置では、簡単な比較処理を行うだけで、適切に文章の境界位置を決定（検出）することができる。

第５の発明は、第４の発明であって、境界検出部は、ｍ次元の閾値ベクトルのｍ個の要素と、ｍ＋１次元ベクトルデータのシーケンスデータ（例えば、文章）の境界位置である確率を示すデータであるｍ個の要素とを、検出する対象のシーケンスデータ（例えば、文章）の境界位置が現時刻から時間的に近い順に、比較することでシーケンスデータ（例えば、文章）の境界位置を決定する処理を行い、シーケンスデータ（例えば、文章）の境界位置が決定されたとき、以降の比較処理を行わない。

これにより、このデータ・セグメンテーション装置では、現時刻ｔに時間的に近い方から順番に、例えば、ニューラルネットワーク部に入力された単語の後に文章境界があるか否かを判定することができる。そして、このセンテンス・セグメンテーション装置では、閾値ベクトルθを用いて比較処理により、文章境界を検出したら即文章境界検出処理を終了させる。従って、このセンテンス・セグメンテーション装置では、ユーザの発話開始からあまり時間を経過しない間に文章境界検出処理を行うことができるため、リアルタイムで文章分割処理を実行することができる。

第６の発明は、第３から第５のいずれかの発明であって、閾値ベクトル設定部は、値Ｆ_１を
Ｆ_１＝２×Ｐｒｅｃｉｓｉｏｎ×Ｒｅｃａｌｌ／（Ｐｒｅｃｉｓｉｏｎ＋Ｒｅｃａｌｌ）
Ｐｒｅｃｉｓｉｏｎ：正しいと予測したデータのうち、実際に正しいデータであった割合
Ｒｅｃａｌｌ：実際に正しいデータであるもののうち、正しいと予測されたデータの割合
とし、
評価値ｓｃｏｒｅを
ｓｃｏｒｅ＝Ｆ_１−α×ｌａｔｅｎｃｙ
ｌａｔｅｎｃｙ：遅延時間（遅延量）
α：係数
としたとき、
閾値ベクトルθをチューニングするために用いるデータセットにおいて、評価値ｓｃｏｒｅが所定の値よりも大きな値となるように、閾値ベクトルθを設定する。

このデータ・セグメンテーション装置では、上記によりチューニングされた閾値ベクトルθを用いてデータ・セグメンテーション処理を行うことができる。上記によりチューニングされた閾値ベクトルθは、データ・セグメンテーションの正確さ（ａｃｃｕｒａｃｙ）と遅延時間（ｌａｔｅｎｃｙ）とを考慮した評価値に基づいて、最適化されているため、データ・セグメンテーションを実行するときの閾値処理に用いる閾値ベクトルθとして適切である。

つまり、このデータ・セグメンテーション装置では、上記のようにしてチューニングされた閾値ベクトルθを用いて、例えば、文章境界検出処理、センテンス・セグメンテーション処理を実行することで、高精度かつ低遅延の文章境界検出処理、センテンス・セグメンテーション処理を実現することができる。

なお、閾値ベクトルθをチューニングするために用いるデータセットにおいて、評価値ｓｃｏｒｅが最大となるように、閾値ベクトルθを設定してもよい。

本発明によれば、シーケンスデータ（例えば、文章）を構成する単位データ数（例えば、単語数）に関係なく、リアルタイムでシーケンスデータ分割処理（例えば、文章分割処理）を実行することができるシーケンスデータ分割方法（例えば、文章分割方法）、データ・セグメンテーション装置を実現することができる。また、当該文章分割方法、センテンス・セグメンテーション装置を利用することで、リアルタイムで精度の高い機械翻訳を行うことができ、さらに、機械によるリアルタイムでの同時通訳を実現することができる。

第１実施形態に係る同時通訳システム１０００の概略構成図。第１実施形態に係る文章分割装置１００のセンテンス分割部２の概略構成図。学習時における文章分割装置１００のニューラルネットワーク部２２の各層のデータ入出力関係を時系列に展開した図。予測時（実行時）における文章分割装置１００のニューラルネットワーク部２２の各層のデータ入出力関係を時系列に展開した図。文章境界検出処理のフローチャートである。閾値ベクトルθをチューニングするためのアルゴリズムの疑似コード第２実施形態に係る話者識別システム２０００の概略構成図。第２実施形態に係る話者識別システム２０００のデータ分割装置１００Ａのデータ分割部２Ａの概略構成図。第３実施形態に係る映像識別システム３０００の概略構成図。第３実施形態に係る映像識別システム３０００のデータ分割装置１００Ｂのデータ分割部２Ｂの概略構成図。第３実施形態の第１変形例に係る映像識別システム３０００Ａの概略構成図。第３実施形態の第２変形例に係る映像識別システム３０００Ｂの概略構成図。第１実施形態を実現するコンピュータの内部構成を示すブロック図。

［第１実施形態］
第１実施形態について、図面を参照しながら、以下説明する。

＜１．１：同時通訳システムの構成＞
図１は、第１実施形態に係る同時通訳システム１０００の概略構成図である。

図２は、第１実施形態に係る文章分割装置１００のセンテンス分割部２の概略構成図である。

同時通訳システム１０００は、図１に示すように、音声認識部Ａｕｄ１と、文章分割装置１００（データ・セグメンテーション装置）と、機械翻訳部ＭＴ１とを備える。

音声認識部Ａｕｄ１は、例えば、マイク等の音声入力装置により取得された音声データＤｉｎを入力する。そして、音声認識部Ａｕｄ１は、例えば、音響モデル、言語モデル、辞書のデータベースを有しており、音声データＤｉｎに対して、音響モデル、言語モデル、辞書を用いて、音声認識処理を実行し、音声データＤｉｎに対応する文章データＤ１を取得する。そして、音声認識部Ａｕｄ１は、取得した文章データＤ１を文章分割装置１００に出力する。

文章分割装置１００は、図１に示すように、閾値ベクトル設定部１と、センテンス分割部２とを備える。

閾値ベクトル設定部１は、所定のデータセットを用いて、学習することにより、閾値ベクトルθを取得する。そして、閾値ベクトル設定部１は、取得した閾値ベクトルθをセンテンス分割部２に出力する。

センテンス分割部２は、図２に示すように、単語取得部２１と、ニューラルネットワーク部２２と、文章境界検出部２３と、センテンス取得部２４とを備える。

単語取得部２１は、音声認識部Ａｕｄ１から出力される文章データＤ１を入力する。単語取得部２１は、入力された文章データＤ１から単語データｘ_ｔを取得し、取得した単語データｘ_ｔをニューラルネットワーク部２２に出力する。

ニューラルネットワーク部２２は、複数のＲＮＮ層（ＲＮＮ：Recurrent Neural Network）を有するニューラルネットワークにより構成されている。ニューラルネットワーク部２２は、図２に示すように、埋込層２２１と、第１ＲＮＮ層２２２と、第２ＲＮＮ層２２３と、第３ＲＮＮ層２２４と、出力マッピング層２２５と、ソフトマックス層２２６とを備える。

ニューラルネットワーク部２２は、単語取得部２１から出力される単語データｘ_ｔを入力し、単語データｘ_ｔを用いて、ニューラルネットワークによる処理を実行し、センテンス・セグメンテーション判定用データｙ_ｔを取得する。そして、ニューラルネットワーク部２２は、取得したセンテンス・セグメンテーション判定用データｙ_ｔを文章境界検出部２３に出力する。

埋込層２２１は、単語データｘ_ｔに対して、埋め込み処理を行うための行列を用いて、行列変換することで、分散表現データに変換し、取得した分散表現データを第１ＲＮＮ層２２２に出力する。

第１ＲＮＮ層２２２、第２ＲＮＮ層２２３および第３ＲＮＮ層２２４は、ＲＮＮにより構成されている。第１ＲＮＮ層２２２は、時刻ｔにおいて埋込層２２１から出力される分散表現データｘｏ_ｅｍｂ（ｔ）と、時刻ｔ−１において第１ＲＮＮ層２２２から出力されたデータｘｏ_ＲＮＮ１（ｔ−１）とを入力する。そして、第１ＲＮＮ層２２２は、時刻ｔにおいて埋込層２２１から出力される分散表現データと、時刻ｔ−１において第１ＲＮＮ層２２２から出力されたデータとを用いて、ＲＮＮによる処理を実行する。つまり、第１ＲＮＮ層２２２は、
ｘｏ_ＲＮＮ１（ｔ）＝Ｗ_ｒｅｃ×ｘｏ_ＲＮＮ１（ｔ−１）＋Ｗ_１×ｘｏ_ｅｍｂ（ｔ）
Ｗ_ｒｅｃ：重み行列
Ｗ_１：重み行列
に相当する処理を実行し、時刻ｔの第１ＲＮＮ層の出力データｘｏ_ＲＮＮ１（ｔ）を取得し、当該データを第２ＲＮＮ層２２３に出力する。

第２ＲＮＮ層２２３は、時刻ｔにおいて第１ＲＮＮ層２２２から出力されるデータと、時刻ｔ−１において第２ＲＮＮ層２２３から出力されたデータとを入力する。そして、第２ＲＮＮ層２２３は、時刻ｔにおいて第１ＲＮＮ層２２２から出力されるデータｘｏ_ＲＮＮ１（ｔ）と、時刻ｔ−１において第２ＲＮＮ層２２３から出力されたデータｘｏ_ＲＮＮ２（ｔ−１）とを用いて、ＲＮＮによる処理を実行する。つまり、第２ＲＮＮ層２２３は、
ｘｏ_ＲＮＮ２（ｔ）＝Ｗ_ｒｅｃ２×ｘｏ_ＲＮＮ２（ｔ−１）＋Ｗ_２×ｘｏ_ＲＮＮ１（ｔ）
Ｗ_ｒｅｃ２：重み行列
Ｗ_２：重み行列
に相当する処理を実行し、時刻ｔの第２ＲＮＮ層の出力データｘｏ_ＲＮＮ２（ｔ）を取得し、当該データを第３ＲＮＮ層２２４に出力する。

第３ＲＮＮ層２２４は、時刻ｔにおいて第２ＲＮＮ層２２３から出力されるデータと、時刻ｔ−１において第３ＲＮＮ層２２４から出力されたデータとを入力する。そして、第３ＲＮＮ層２２４は、時刻ｔにおいて第２ＲＮＮ層２２３から出力されるデータｘｏ_ＲＮＮ２（ｔ）と、時刻ｔ−１において第３ＲＮＮ層２２４から出力されたデータｘｏ_ＲＮＮ３（ｔ−１）とを用いて、ＲＮＮによる処理を実行する。つまり、第３ＲＮＮ層２２４は、
ｘｏ_ＲＮＮ３（ｔ）＝Ｗ_ｒｅｃ３×ｘｏ_ＲＮＮ３（ｔ−１）＋Ｗ_３×ｘｏ_ＲＮＮ２（ｔ）
Ｗ_ｒｅｃ３：重み行列
Ｗ_３：重み行列
に相当する処理を実行し、時刻ｔの第３ＲＮＮ層の出力データｘｏ_ＲＮＮ３（ｔ）を取得し、当該データを出力マッピング層２２５に出力する。

出力マッピング層２２５は、例えば、ニューラルネットワークにより構成されている。出力マッピング層２２５は、第３ＲＮＮ層２２４から出力されたデータを入力する。出力マッピング層２２５は、第３ＲＮＮ層２２４の各ノードから出力されるデータに対して重み付けを行い、重み付け後のデータを加算し、さらに、当該加算結果に対して、活性化関数による処理（例えば、ｔａｎｈ（ｘ）による処理）を実行し、ソフトマックス層２２６のノード数と同じ次元のデータを取得する。そして、出力マッピング層２２５は、取得したデータをソフトマックス層２２６に出力する。

ソフトマックス層２２６は、例えば、活性化関数をＳｏｆｔｍａｘ関数として、ｍ＋１次元（ｍ：自然数）のベクトルを出力データとして出力する。ソフトマックス層２２６は、出力マッピング層２２５から出力されるデータに対して、活性化関数を用いた処理を実行し、ｍ＋１次元のベクトルデータを取得する。例えば、ソフトマックス層２２６のｉ番目（ｉ：自然数、１≦ｉ≦ｍ＋１）のノードの出力値ｙ_ｔ（ｉ）は、下記の数式（Ｓｏｆｔｍａｘ関数）により算出される。

ソフトマックス層２２６は、各ノードに対応する出力値ｙ_ｔ（ｉ）を要素とするｍ＋１次元のベクトルデータを取得し、取得したｍ＋１次元のベクトルデータを出力データｙ_ｔ（センテンス・セグメンテーション判定用データｙ_ｔ）として文章境界検出部２３に出力する。

文章境界検出部２３は、ニューラルネットワーク部２２から出力されるセンテンス・セグメンテーション判定用データｙ_ｔと、閾値ベクトル設定部１から出力される閾値ベクトルθとを入力する。文章境界検出部２３は、センテンス・セグメンテーション判定用データｙ_ｔと、閾値ベクトルθとに基づいて、文章境界を検出する処理を実行し、当該処理の検出結果データδ_ｔを取得する。そして、文章境界検出部２３は、取得した検出結果データδ_ｔをセンテンス取得部２４に出力する。

センテンス取得部２４は、音声認識部Ａｕｄ１から出力される文章データＤ１と、文章境界検出部２３から出力される検出結果データδ_ｔとを入力する。センテンス取得部２４は、検出結果データδ_ｔに基づいて、文章データＤ１を文章単位に分割する。つまり、センテンス取得部２４は、検出結果データδ_ｔに基づいて、文章データＤ１の文章の境界を示すデータ（例えば＜ＥＯＳ＞の記号）を付与したデータをデータＤ２として取得し、取得したデータＤ２を機械翻訳部ＭＴ１に出力する。

図１を参照して、機械翻訳部ＭＴ１は、文章分割装置１００から出力されるデータＤ２を入力する。機械翻訳部ＭＴ１は、データＤ２に対して、機械翻訳処理を実行し、機械翻訳処理後のデータＤｏｕｔを取得する。

＜１．２：同時通訳システムの動作＞
以上のように構成された同時通訳システム１０００の動作について説明する。

（１．２．１：学習処理）
まず、同時通訳システム１０００において、文章分割装置１００のニューラルネットワーク部２２のニューラルネットワークの学習処理について、説明する。

文章のシーケンスＳをＳ＝（Ｓ_１，Ｓ_２，・・・）とする。つまり、センテンスＳ_ｉ＋１は、センテンスＳ_ｉに続くセンテンスであるものとする。そして、１つの学習用サンプル（Ｘ_ｉ，ｎ_ｉ）が（Ｓ_ｉ，Ｓ_ｉ＋１）から抽出されるものとする。そして、
Ｓ_ｉ＝（ｗ_１ ^ｉ，ｗ_２ ^ｉ，・・・，ｗ_ni ^ｉ）
であり、
（１）１≦ｔ≦ｎ_ｉの場合、
ｘ_ｔ＝ｗ_ｔ ^ｉ
であり、
（２）ｎ_ｉ＋１≦ｔ≦ｎ_ｉ＋ｍの場合、
ｘ_ｔ＝ｗ_ｔ−ｎｉ ^ｉ＋１
とする。なお、Ｘ_ｉ＝（ｘ_１，ｘ_２，・・・，ｘ_ｎｉ＋ｍ）であり、Ｘ_ｉは、入力単語のシーケンスである。

データｙ_ｔが教師データ（理想データ）であるとき、ｙ_ｔは、以下のように定義される。
ｙ_ｔ ^＜ｋ＞＝１ｉｆ１≦ｔ≦ｎ_ｉ、ｋ＝ｍ＋１
ｙ_ｔ ^＜ｋ＞＝１ｉｆｎ_ｉ＋１≦ｔ≦ｎ_ｉ＋ｍ、ｋ＝ｔ−ｎ_ｉ
ｙ_ｔ ^＜ｋ＞＝０ｏｔｈｅｒｗｉｓｅ（上記以外の場合）
したがって、実データｙ_ｔ（訓練用データを入力したときの出力データｙ_ｔ）と教師データとのクロスエントロピーＥ（Ｓ）を最小にするために、以下の基準を採用する。

文章分割装置１００のニューラルネットワーク部２２では、訓練用データを入力し、出力データｙ_ｔを取得する。そして、取得したデータｙ_ｔについて、上記クロスエントロピーＥ（Ｓ）が所定の基準を満たすように、ニューラルネットワーク部２２のニューラルネットワークのパラメータ（各シナプス間の重み付け）を決定する。そして、決定したパラメータ（各シナプス間の重み付け）を用いて、ニューラルネットワーク部２２のニューラルネットワークにおいて、学習済みモデルを構築する。

例えば、文章データＤ１が「ｉ‘ｄｌｉｋｅｓｏｍｅｓｔｒａｗｂｅｒｒｉｅｓｈｏｗｍｕｃｈｄｏｅｓｉｔｃｏｓｔ」である場合について、図３を用いて説明する。

図３は、学習時における文章分割装置１００のニューラルネットワーク部２２の各層のデータ入出力関係を時系列に展開した図である。

図３に示すように、ニューラルネットワーク部２２には、文章データＤ１から出力した以下の単語データｘ_ｔが入力される。なお、ｍ＝３とする。
ｘ_１＝「ｉ」
ｘ_２＝「‘ｄ」
ｘ_３＝「ｌｉｋｅ」
ｘ_４＝「ｓｏｍｅ」
ｘ_５＝「ｓｔｒａｗｂｅｒｒｉｅｓ」
ｘ_６＝「ｈｏｗ」
ｘ_７＝「ｍｕｃｈ」
ｘ_８＝「ｄｏｅｓ」
そして、ニューラルネットワーク部２２の出力は、ｍ＋１次元のベクトルである。時刻ｔのニューラルネットワーク部２２の出力は、ｙ_ｔであり、
ｙ_ｔ＝（ｙ_ｔ ^＜１＞，ｙ_ｔ ^＜２＞，・・・，ｙ_ｔ ^＜ｍ＞，ｙ_ｔ ^{＜ｍ＋１＞}）
ｙ_ｔ ^＜１＞：単語ｗ_ｔ−１（入力データｘ_ｔ−１）の後に文章の境界（区切り）がある確率
ｙ_ｔ ^＜２＞：単語ｗ_ｔ−２（入力データｘ_ｔ−２）の後に文章の境界（区切り）がある確率
・・・
ｙ_ｔ ^＜ｍ＞：単語ｗ_ｔ−ｍ（入力データｘ_ｔ−ｍ）の後に文章の境界（区切り）がある確率
ｙ_ｔ ^{＜ｍ＋１＞}：ｙ_ｔの全ての要素の加算値を「１」とするための値
ｙ_ｔ ^{＜ｍ＋１＞}は、以下の数式を満たす。

上記の場合、図３に示すように、「ｓｔｒａｗｂｅｒｒｉｅｓ」の後に文章の境界があるので、教師データｙ_ｔを以下のデータとして、学習を行う。
ｙ_１＝ｙ_２＝ｙ_３＝ｙ_４＝ｙ_５＝（０，０，０，１）
ｙ_６＝（１，０，０，０）
ｙ_７＝（０，１，０，０）
ｙ_８＝（０，０，１，０）
上記以外の訓練用データについても同様にして学習を行う。つまり、上記クロスエントロピーＥ（Ｓ）が所定の基準を満たすように、ニューラルネットワーク部２２のニューラルネットワークのパラメータ（各シナプス間の重み付け）を決定する。そして、決定したパラメータ（各シナプス間の重み付け）を用いて、ニューラルネットワーク部２２のニューラルネットワークにおいて、学習済みモデルを構築する。

（１．２．２：予測処理）
次に、同時通訳システム１０００において、上記学習処理により取得した学習済みモデルを用いた予測処理、すなわち、同時通訳処理について説明する。

以下では、説明便宜のため、学習用の文章データＤ１が「ｉ‘ｄｌｉｋｅｓｏｍｅｓｔｒａｗｂｅｒｒｉｅｓｈｏｗｍｕｃｈｄｏｅｓｉｔｃｏｓｔ」である場合について、説明する。

図４は、予測時（実行時）における文章分割装置１００のニューラルネットワーク部２２の各層のデータ入出力関係を時系列に展開した図である。

図４に示すように、ニューラルネットワーク部２２には、文章データＤ１から出力した以下の単語データｘ_ｔが入力される。なお、ｍ＝３とする。

単語取得部２１は、音声認識部Ａｕｄ１から入力された文章データＤ１から単語データｘ_ｔ（時刻ｔにおける単語データｘ_ｔ）を取得する。具体的には、単語取得部２１は、ｔ＝１〜８（１≦ｔ≦８）において、文章データＤ１から以下の単語データｘ_ｔを取得し、ニューラルネットワーク部２２の埋込層２２１に入力する。
ｘ_１＝「ｉ」
ｘ_２＝「‘ｄ」
ｘ_３＝「ｌｉｋｅ」
ｘ_４＝「ｓｏｍｅ」
ｘ_５＝「ｓｔｒａｗｂｅｒｒｉｅｓ」
ｘ_６＝「ｈｏｗ」
ｘ_７＝「ｍｕｃｈ」
ｘ_８＝「ｄｏｅｓ」
埋込層２２１では、入力された単語データｘ_ｔに対応する分散表現データが取得される。取得された分散表現データは、第１ＲＮＮ層２２２に入力される。

第１ＲＮＮ層２２２は、時刻ｔにおいて埋込層２２１から出力される分散表現データｘｏ_ｅｍｂ（ｔ）と、時刻ｔ−１において第１ＲＮＮ層２２２から出力されたデータｘｏ_ＲＮＮ１（ｔ−１）とを用いて、ＲＮＮによる処理を実行する。つまり、第１ＲＮＮ層２２２は、
ｘｏ_ＲＮＮ１（ｔ）＝Ｗ_ｒｅｃ×ｘｏ_ＲＮＮ１（ｔ−１）＋Ｗ_１×ｘｏ_ｅｍｂ（ｔ）
Ｗ_ｒｅｃ：重み行列
Ｗ_１：重み行列
に相当する処理を実行し、時刻ｔの第１ＲＮＮ層の出力データｘｏ_ＲＮＮ１（ｔ）を取得し、当該データを第２ＲＮＮ層２２３に出力する。

第２ＲＮＮ層２２３は、時刻ｔにおいて第１ＲＮＮ層２２２から出力されるデータｘｏ_ＲＮＮ１（ｔ）と、時刻ｔ−１において第２ＲＮＮ層２２３から出力されたデータｘｏ_ＲＮＮ２（ｔ−１）とを用いて、ＲＮＮによる処理を実行する。つまり、第２ＲＮＮ層２２３は、
ｘｏ_ＲＮＮ２（ｔ）＝Ｗ_ｒｅｃ２×ｘｏ_ＲＮＮ２（ｔ−１）＋Ｗ_２×ｘｏ_ＲＮＮ１（ｔ）
Ｗ_ｒｅｃ２：重み行列
Ｗ_２：重み行列
に相当する処理を実行し、時刻ｔの第２ＲＮＮ層の出力データｘｏ_ＲＮＮ２（ｔ）を取得し、当該データを第３ＲＮＮ層２２４に出力する。

第３ＲＮＮ層２２４は、時刻ｔにおいて第２ＲＮＮ層２２３から出力されるデータｘｏ_ＲＮＮ２（ｔ）と、時刻ｔ−１において第３ＲＮＮ層２２４から出力されたデータｘｏ_ＲＮＮ３（ｔ−１）とを用いて、ＲＮＮによる処理を実行する。つまり、第３ＲＮＮ層２２４は、
ｘｏ_ＲＮＮ３（ｔ）＝Ｗ_ｒｅｃ３×ｘｏ_ＲＮＮ３（ｔ−１）＋Ｗ_３×ｘｏ_ＲＮＮ２（ｔ）
Ｗ_ｒｅｃ３：重み行列
Ｗ_３：重み行列
に相当する処理を実行し、時刻ｔの第３ＲＮＮ層の出力データｘｏ_ＲＮＮ３（ｔ）を取得し、当該データを出力マッピング層２２５に出力する。

出力マッピング層２２５は、第３ＲＮＮ層２２４の各ノードから出力されるデータに対して重み付けを行い、重み付け後のデータを加算し、さらに、当該加算結果に対して、活性化関数による処理（例えば、ｔａｎｈ（ｘ）による処理）を実行し、ソフトマックス層２２６のノード数と同じ次元のデータを取得する。そして、出力マッピング層２２５は、取得したデータをソフトマックス層２２６に出力する。

ソフトマックス層２２６は、出力マッピング層２２５から出力されるデータに対して、活性化関数を用いた処理を実行し、ｍ＋１次元のベクトルデータを取得する。例えば、ソフトマックス層２２６のｉ番目（ｉ：自然数、１≦ｉ≦ｍ＋１）のノードの出力値ｙ_ｔ（ｉ）は、下記の数式（Ｓｏｆｔｍａｘ関数）により算出される。

図４の場合、ｙ_１〜ｙ_８は、以下のデータとして取得されたものとする。
ｙ_１＝（ｙ_１ ^＜１＞，ｙ_１ ^＜２＞，ｙ_１ ^＜３＞，ｙ_１ ^＜４＞）
＝（０．１５，０．２１，０．１８，０．４６）
ｙ_２＝（ｙ_２ ^＜１＞，ｙ_２ ^＜２＞，ｙ_２ ^＜３＞，ｙ_２ ^＜４＞）
＝（０．１３，０．２４，０．２１，０．４２）
ｙ_３＝（ｙ_３ ^＜１＞，ｙ_３ ^＜２＞，ｙ_３ ^＜３＞，ｙ_３ ^＜４＞）
＝（０．２５，０．１１，０．２２，０．４２）
ｙ_４＝（ｙ_４ ^＜１＞，ｙ_４ ^＜２＞，ｙ_４ ^＜３＞，ｙ_４ ^＜４＞）
＝（０．３６，０．２４，０．２１，０．１９）
ｙ_５＝（ｙ_５ ^＜１＞，ｙ_５ ^＜２＞，ｙ_５ ^＜３＞，ｙ_５ ^＜４＞）
＝（０．１７，０．１９，０．１３，０．５１）
ｙ_６＝（ｙ_６ ^＜１＞，ｙ_６ ^＜２＞，ｙ_６ ^＜３＞，ｙ_６ ^＜４＞）
＝（０．３３，０．２４，０．２１，０．２２）
ｙ_７＝（ｙ_７ ^＜１＞，ｙ_７ ^＜２＞，ｙ_７ ^＜３＞，ｙ_７ ^＜４＞）
＝（０．１５，０．５１，０．１２，０．２２）
ｙ_８＝（ｙ_８ ^＜１＞，ｙ_８ ^＜２＞，ｙ_８ ^＜３＞，ｙ_８ ^＜４＞）
＝（０．１３，０．２４，０．６１，０．０２）
また、閾値ベクトル設定部１は、所定のデータセットを用いて学習した閾値ベクトルθをセンテンス分割部２に出力する。なお、ここでは、閾値ベクトルθは、
θ＝（θ^＜１＞，θ^＜２＞，θ^＜３＞）＝（０．４，０．５，０．６）
であるものとする。

文章境界検出部２３は、ニューラルネットワーク部２２から出力されるセンテンス・セグメンテーション判定用データｙ_ｔと、閾値ベクトルθとに基づいて、文章境界を検出する処理を実行する。この処理について、図５のフローチャートを用いて説明する。

図５は、文章境界検出処理のフローチャートである。

（ステップＳ１）：
ステップＳ１において、文章境界検出部２３は、ｉ＝１に設定する処理を行う。

（ステップＳ２）：
ステップＳ２において、文章境界検出部２３は、センテンス・セグメンテーション判定用データｙ_ｔのｉ番目の要素ｙ_ｔ ^＜ｉ＞と、閾値ベクトルθのｉ番目の要素θ^＜ｉ＞との比較処理を行う。そして、ｙ_ｔ ^＜ｉ＞＞θ^＜ｉ＞である場合、処理をステップＳ３に進め、ｙ_ｔ ^＜ｉ＞＞θ^＜ｉ＞ではない場合、処理をステップＳ４に進める。

（ステップＳ３）：
ステップＳ３において、文章境界検出部２３は、文章境界決定処理を行う。具体的には、文章境界検出部２３は、ｙ_ｔ ^＜ｉ＞＞θ^＜ｉ＞であるので、文章境界（文章の区切り位置）が時刻ｔ−ｉにニューラルネットワーク部２２に入力された単語ｘ_ｔ−ｉの後であると判定する。そして、文章境界検出部２３は、当該判定結果を含むデータをセンテンス取得部２４に出力する。具体的には、文章境界検出部２３は、時刻ｔにおいて、ニューラルネットワーク部２２に入力された単語ｘ_ｔの後に文章境界があると判定した場合、δ_ｔ＝１とし、ニューラルネットワーク部２２に入力された単語ｘ_ｔの後に文章境界がないと判定した場合、δ_ｔ＝０とする。そして、δ_ｔを含むデータをセンテンス取得部２４に出力する。

例えば、図４の場合、ｙ_７ ^＜２＞＞θ^＜２＞（０．５１＞０．５）であるので、δ_５＝１（５＝７−２）となり、文章境界検出部２３は、ｘ_５（「ｓｔｒａｗｂｅｒｒｉｅｓ」）の後に、文章境界があると判定する。

（ステップＳ４）：
ステップＳ４において、文章境界検出部２３は、値ｉと値ｍとを比較し、ｉ＞ｍである場合、処理を終了させ、ｉ＞ｍではない場合、処理をステップＳ５に進める。

ステップＳ５では、値ｉを１だけインクリメントし、処理をステップＳ２に戻す。

文章境界検出部２３では、上記のようにして、文章境界検出処理が実行される。

上記の通り、文章境界検出部２３では、現時刻ｔに時間的に近い方から順番に、ニューラルネットワーク部２２に入力された単語の後に文章境界があるか否かを判定する。そして、文章境界検出部２３は、センテンス・セグメンテーション判定用データｙ_ｔと、閾値ベクトルθとの比較処理により、文章境界があると判定したら、即座に文章境界を出力し処理を終了させる。したがって、文章境界検出部２３では、高速に文章境界を検出することができる。また、文章境界検出部２３では、上記の通り、現時刻ｔから１〜ｍステップ前の時刻（ｔ−１〜ｔ−ｍ）までのｍ個のデータについてのみ、文章境界検出処理を行うので、文章境界が検出されない場合において、処理が不要に長引くことを防止することができる。

センテンス取得部２４は、文章境界検出部２３により取得された検出結果データδ_ｔに基づいて、文章データＤ１を文章単位に分割する。例えば、センテンス取得部２４は、検出結果データδ_ｔに基づいて、文章データＤ１の文章の境界を示すデータ（＜ＥＯＳ＞）を付与したデータをデータＤ２として取得し、取得したデータＤ２を機械翻訳部ＭＴ１に出力する。例えば、図４の場合、δ_５＝１であるため、センテンス取得部２４は、「ｓｔｒａｗｂｅｒｒｉｅｓ」の後に文章境界があると適切に判定することができる。

機械翻訳部ＭＴ１は、文章分割装置１００から出力されるデータＤ２に対して、機械翻訳処理を実行し、機械翻訳処理後のデータＤｏｕｔを取得する。このとき、文章分割装置１００から出力されるデータＤ２は、文章の区切り（文章境界）が明示されているデータであるため、機械翻訳部ＭＴ１は、機械翻訳対象とする文章を適切に取得することができる。つまり、機械翻訳部ＭＴ１は、文章単位に機械翻訳処理を実行することができる。例えば、図４の場合、δ_５＝１であり、「ｓｔｒａｗｂｅｒｒｉｅｓ」の後に文章境界があると判定することができるので、機械翻訳部ＭＴ１は、「ｉ‘ｄｌｉｋｅｓｏｍｅｓｔｒａｗｂｅｒｒｉｅｓ」を一文と判定した上で翻訳文を出力し、次の一文が「ｈｏｗ」から始まることを適切に把握することができる。

したがって、機械翻訳部ＭＴ１は、文章境界が適切に判断された文章単位に機械翻訳を行うことができ、その結果、精度の高い機械翻訳結果を取得することができる。機械翻訳部ＭＴ１により取得された機械翻訳結果データは、データＤｏｕｔとして出力される。

以上のように、同時通訳システム１０００では、単語データを入力とし、文章境界が存在する位置および確率を示すベクトルを出力とするニューラルネットワークによるモデルを用いて学習処理を行い、学習済みモデルを取得する。そして、同時通訳システム１０００では、上記の学習済みモデルを用いて、文章境界を検出する処理を行う。同時通訳システム１０００では、閾値ベクトルθを導入し、現時刻ｔに時間的に近い方から順番に、ニューラルネットワーク部２２に入力された単語の後に文章境界があるか否かを判定する。そして、同時通訳システム１０００では、閾値ベクトルθを用いて比較処理により、文章境界を検出したら即座に文章境界検出処理を終了させるとともに、平均してユーザの音声入力開始から文章境界検出までの時間(遅延時間)が短いため、リアルタイムで文章分割処理を実行することができる。

また、同時通訳システム１０００では、単語データを入力とし、文章境界が存在する位置および確率を示すベクトルを出力とするニューラルネットワークにおいて、ＲＮＮを用いているため、長い文章の依存性も考慮することができ、文章を構成する単語数に関係なく、精度の高い文章境界検出処理、センテンス・セグメンテーション処理を実行することができる。

また、同時通訳システム１０００では、上記の通り、精度の高い文章境界検出処理、センテンス・セグメンテーション処理を実行できるので、文章境界を明示したデータを機械翻訳部ＭＴ１に入力し、機械翻訳部ＭＴ１が当該データに対して、機械翻訳処理を実行することで、精度の高い機械翻訳処理結果をリアルタイムで取得することができる。そして、このようにして取得した機械翻訳結果を、例えば、ディスプレイ等にテキストデータとして表示することで、同時通訳処理（リアルタイム通訳処理）を実行することができる。また、同時通訳システム１０００において、上記のようにして取得した機械翻訳結果を、例えば、音声合成処理部により、音声合成処理を行い、機械翻訳結果に対応する合成音声を出力することで、同時通訳処理（リアルタイム通訳処理）を実行することができる。

≪変形例≫
次に、第１実施形態の変形例について、説明する。

本変形例の同時通訳システムでは、閾値ベクトル設定部１において、センテンス・セグメンテーションの正確さ（ａｃｃｕｒａｃｙ）と遅延時間（ｌａｔｅｎｃｙ）とを考慮した評価値を導入し、当該評価値に基づいて、閾値ベクトルθをチューニングする方法について、説明する。

まず、値Ｆ_１（Ｆ値）を
Ｆ_１＝２×Ｐｒｅｃｉｓｉｏｎ×Ｒｅｃａｌｌ／（Ｐｒｅｃｉｓｉｏｎ＋Ｒｅｃａｌｌ）
Ｐｒｅｃｉｓｉｏｎ：正しいと予測したデータのうち、実際に正しいデータであった割合
Ｒｅｃａｌｌ：実際に正しいデータであるもののうち、正しいと予測されたデータの割合
とする。

そして、評価値ｓｃｏｒｅを
ｓｃｏｒｅ＝Ｆ_１−α×ｌａｔｅｎｃｙ
ｌａｔｅｎｃｙ：遅延時間（遅延量）
とする。

なお、αは係数であり、例えば、α＝０．０１である。

そして、閾値ベクトルθをチューニングするために用いるデータセットにおいて、上記評価値ｓｃｏｒｅを最大にするように、貪欲法（ＧｒｅｅｄｙＡｌｇｏｒｉｔｈｍ）を用いたサーチを行う。例えば、図６に疑似コードを示したアルゴリズムにより、閾値ベクトルθをチューニングする。この手法では、その親データの評価値ｓｃｏｒｅが大きな値となる閾値ベクトルの優先順位を高くする。そして、上記手法では、θ^＜ｋ＞が降順となるようにし、ヒューリスティック手法により探索空間を刈り取る（取り除く）ことで、閾値ベクトルθをチューニングする。

上記によりチューニングされた閾値ベクトルθは、センテンス・セグメンテーションの正確さ（ａｃｃｕｒａｃｙ）と遅延時間（ｌａｔｅｎｃｙ）とを考慮した評価値に基づいて、最適化されているため、センテンス・セグメンテーションを実行するときの閾値処理に用いる閾値ベクトルθとして適切である。

つまり、本変形例の同時通訳システムでは、上記のようにしてチューニングされた閾値ベクトルθを用いて、文章境界検出処理、センテンス・セグメンテーション処理を実行することで、高精度かつ低遅延の文章境界検出処理、センテンス・セグメンテーション処理を実現することができる。

［第２実施形態］
次に、第２実施形態について、説明する。

なお、上記実施形態と同様の部分については、同一符号を付し、詳細な説明を省略する。

図７は、第２実施形態に係る話者識別システム２０００の概略構成図である。

図８は、第２実施形態に係る話者識別システム２０００のデータ分割装置１００Ａのデータ分割部２Ａの概略構成図である。

第２実施形態では、第１実施形態の同時通訳システム１０００の文章分割装置１００に類似する構成を有するデータ分割装置１００Ａを用いて、話者識別システム２０００を構築し、話者識別処理を実現させる方法について説明する。

話者識別システム２０００は、図７に示すように、第１実施形態の同時通訳システム１０００において、音声認識部Ａｕｄ１を音声特徴量取得部Ｐｒｅ１に置換し、文章分割装置１００をデータ分割装置１００Ａに置換し、機械翻訳部ＭＴ１を話者識別部Ｐｏｓｔ１に置換した構成を有している。

音声特徴量取得部Ｐｒｅ１は、入力データＤｉｎ（例えば、音声データ）から時間的に連続した音声特徴量を取得し、取得した音声特徴量を含むデータをデータＤ１Ａとしてデータ分割装置１００Ａに出力する。

データ分割装置１００Ａは、図７に示すように、閾値ベクトル設定部１と、データ分割部２Ａとを備える。

閾値ベクトル設定部１は、第１実施形態の閾値ベクトル設定部１と同様の構成を有している。

データ分割部２Ａは、図８に示すように、単位データ取得部２１Ａと、ニューラルネットワーク部２２と、境界検出部２３Ａと、分割データ取得部２４Ａとを備える。

単位データ取得部２１Ａは、第１実施形態の単語取得部２１と類似の処理を実行する機能部であり、入力されるデータＤ１Ａ（例えば、時間的に連続した音声特徴量のデータ）から、ニューラルネットワークでの処理単位となるデータ（単位データ）を取得し、取得したデータをデータｘ_ｔとしてニューラルネットワーク部２２に出力する。

ニューラルネットワーク部２２では、学習処理において、第１実施形態と同様の処理が実行される。なお、第１実施形態のニューラルネットワーク部２２では、センテンスの区切り位置において教師データｙ_ｔのｙ_ｔ ^＜ｋ＞の値を「１」として学習処理を実行したが、本実施形態のニューラルネットワーク部２２では、話者が切り替わった時刻を区切り位置として当該区切り位置において教師データｙ_ｔのｙ_ｔ ^＜ｋ＞の値を「１」として学習処理を実行する。

ニューラルネットワーク部２２は、予測処理において、第１実施形態のニューラルネットワーク部２２と同様の処理を実行する。

境界検出部２３Ａは、第１実施形態の文章境界検出部２３と同様の構成を有しており、ニューラルネットワーク部２２から出力されるデータｙ_ｔと、閾値ベクトル設定部１から出力される閾値ベクトルθとに基づいて、第１実施形態と同様の処理により、データ境界（話者が切り替わったタイミング）を検出する。そして、境界検出部２３Ａは、検出結果データδ_ｔを分割データ取得部２４Ａに出力する。

分割データ取得部２４Ａは、第１実施形態のセンテンス取得部２４と同様の構成を有しており、境界検出部２３Ａにより取得された検出結果データδ_ｔに基づいて、データＤ１Ａを話者ごとのデータに分割する。例えば、分割データ取得部２４Ａは、検出結果データδ_ｔに基づいて、データＤ１Ａの境界（話者が変わったタイミング）を示すデータ（例えば、特別な記号）を付与したデータをデータＤ２Ａとして取得し、取得したデータＤ２Ａを話者識別部Ｐｏｓｔ１に出力する。

話者識別部Ｐｏｓｔ１は、データ分割部２Ａから出力されるデータＤ２Ａを入力する。話者識別部Ｐｏｓｔ１は、データＤ２ＡからデータＤ１Ａの境界（話者が変わったタイミング）を特定し、話者を識別する処理を実行し、当該識別処理の結果を含むデータＤｏｕｔを出力する。

上記により、話者識別システム２０００では、時間的に連続するデータから、特定の区切り（本実施形態では、話者の変更）を検出する処理を実行することができる。そして、話者識別システム２０００では、第１実施形態と同様の手法を用いているので、検出結果を取得するまでの時間が短く、その結果、リアルタイムで検出処理を実行することができる。

［第３実施形態］
次に、第３実施形態について、説明する。

図９は、第３実施形態に係る映像識別システム３０００の概略構成図である。

図１０は、第３実施形態に係る映像識別システム３０００のデータ分割装置１００Ｂのデータ分割部２Ｂの概略構成図である。

第３実施形態では、第２実施形態の話者識別システム２０００のデータ分割装置１００Ａと同様の構成を有するデータ分割装置１００Ｂを用いて、映像識別システム３０００を構築し、映像識別処理（シーンチェンジの検出処理）を実現させる方法について説明する。

映像識別システム３０００は、図９に示すように、第２実施形態の話者識別システム２０００において、音声特徴量取得部Ｐｒｅ１を映像データ取得部Ｐｒｅ２に置換し、データ分割装置１００Ａをデータ分割装置１００Ｂに置換し、話者識別部Ｐｏｓｔ１をシーンチェンジ検出部Ｐｏｓｔ２に置換した構成を有している。

映像データ取得部Ｐｒｅ２は、入力データＤｉｎ（例えば、映像データ、あるいは、映像データをＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）により圧縮して取得したデータ）から時間的に連続したデータを取得し、取得したデータをデータＤ１Ｂとしてデータ分割装置１００Ｂに出力する。

データ分割装置１００Ｂは、図９に示すように、閾値ベクトル設定部１と、データ分割部２Ｂとを備える。

データ分割部２Ｂは、図１０に示すように、単位データ取得部２１Ｂと、ニューラルネットワーク部２２と、境界検出部２３Ｂと、分割データ取得部２４Ｂとを備える。

単位データ取得部２１Ｂは、第１実施形態の単語取得部２１と類似の処理を実行する機能部であり、入力されるデータＤ１Ｂ（例えば、時間的に連続した映像のデータ、あるいは、時間的に連続した映像のデータのＣＮＮによる圧縮後のデータ）から、ニューラルネットワークでの処理単位となるデータ（単位データ）を取得し、取得したデータをデータｘ_ｔとしてニューラルネットワーク部２２に出力する。

ニューラルネットワーク部２２では、学習処理において、第１実施形態と同様の処理が実行される。なお、第１実施形態のニューラルネットワーク部２２では、センテンスの区切り位置において教師データｙ_ｔのｙ_ｔ ^＜ｋ＞の値を「１」として学習処理を実行したが、本実施形態のニューラルネットワーク部２２では、シーンが切り替わった時刻（シーンチェンジの時刻）を区切り位置として当該区切り位置において教師データｙ_ｔのｙ_ｔ ^＜ｋ＞の値を「１」として学習処理を実行する。

境界検出部２３Ｂは、第１実施形態の文章境界検出部２３と同様の構成を有しており、ニューラルネットワーク部２２から出力されるデータｙ_ｔと、閾値ベクトル設定部１から出力される閾値ベクトルθとに基づいて、第１実施形態と同様の処理により、データ境界（シーンが切り替わったタイミング）を検出する。そして、境界検出部２３Ｂは、検出結果データδ_ｔを分割データ取得部２４Ｂに出力する。

分割データ取得部２４Ｂは、第１実施形態のセンテンス取得部２４と同様の構成を有しており、境界検出部２３Ｂにより取得された検出結果データδ_ｔに基づいて、データＤ１Ｂをシーンごとのデータに分割する。例えば、分割データ取得部２４Ｂは、検出結果データδ_ｔに基づいて、データＤ１Ｂの境界（シーンが切り替わったタイミング）を示すデータ（例えば、特別な記号）を付与したデータをデータＤ２Ｂとして取得し、取得したデータＤ２Ｂをシーンチェンジ検出部Ｐｏｓｔ２に出力する。

シーンチェンジ検出部Ｐｏｓｔ２は、データ分割部２Ｂから出力されるデータＤ２Ｂを入力する。シーンチェンジ検出部Ｐｏｓｔ２は、データＤ２ＢからデータＤ１Ｂの境界（シーンが切り替わったタイミング）を特定し、シーンチェンジを検出する処理を実行し、当該検出結果を含むデータＤｏｕｔを出力する。

上記により、映像識別システム３０００では、時間的に連続するデータから、特定の区切り（本実施形態では、シーンチェンジ）を検出する処理を実行することができる。そして、映像識別システム３０００では、第１実施形態と同様の手法を用いているので、検出結果を取得するまでの時間が短く、その結果、リアルタイムで検出処理を実行することができる。

≪第１変形例≫
次に、第３実施形態の第１変形例について、説明する。

図１１は、第３実施形態の第１変形例に係る映像識別システム３０００Ａの概略構成図である。

第３実施形態の第１変形例では、第２実施形態の話者識別システム２０００のデータ分割装置１００Ａと同様の構成を有するデータ分割装置１００Ｂを用いて、映像識別システム３０００Ａを構築し、映像識別処理（人物検出処理）を実現させる方法について説明する。

映像識別システム３０００Ａは、図１１に示すように、第３実施形態の映像識別システム３０００において、映像データ取得部Ｐｒｅ２を映像データ取得部Ｐｒｅ３に置換し、シーンチェンジ検出部Ｐｏｓｔ２を人物検出部Ｐｏｓｔ３に置換した構成を有している。

映像データ取得部Ｐｒｅ３は、入力データＤｉｎ（例えば、映像データ、あるいは、映像データをＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）により圧縮して取得したデータ）から時間的に連続したデータを取得し、取得したデータをデータＤ１Ｂとしてデータ分割装置１００Ｂに出力する。

データ分割装置１００Ｂでは、第３実施形態と同様の処理が実行される。

ニューラルネットワーク部２２では、学習処理において、第１実施形態と同様の処理が実行される。なお、第１実施形態のニューラルネットワーク部２２では、センテンスの区切り位置において教師データｙ_ｔのｙ_ｔ ^＜ｋ＞の値を「１」として学習処理を実行したが、本実施形態のニューラルネットワーク部２２では、人物が検出された時刻（映像に人物が写り始めた時刻、あるいは、映像から人物が消えた時刻）を区切り位置として当該区切り位置において教師データｙ_ｔのｙ_ｔ ^＜ｋ＞の値を「１」として学習処理を実行する。

境界検出部２３Ｂは、第１実施形態の文章境界検出部２３と同様の構成を有しており、ニューラルネットワーク部２２から出力されるデータｙ_ｔと、閾値ベクトル設定部１から出力される閾値ベクトルθとに基づいて、第１実施形態と同様の処理により、データ境界（映像に人物が写り始めた時刻、あるいは、映像から人物が消えた時刻）を検出する。そして、境界検出部２３Ｂは、検出結果データδ_ｔを分割データ取得部２４Ｂに出力する。

分割データ取得部２４Ｂは、第１実施形態のセンテンス取得部２４と同様の構成を有しており、境界検出部２３Ｂにより取得された検出結果データδ_ｔに基づいて、データＤ１Ｂをシーンごとのデータに分割する。例えば、分割データ取得部２４Ｂは、検出結果データδ_ｔに基づいて、データＤ１Ｂの境界（映像に人物が写り始めた時刻、あるいは、映像から人物が消えた時刻）を示すデータ（例えば、特別な記号）を付与したデータをデータＤ２Ｂとして取得し、取得したデータＤ２Ｂを人物検出部Ｐｏｓｔ３に出力する。

人物検出部Ｐｏｓｔ３は、データ分割部２Ｂから出力されるデータＤ２Ｂを入力する。人物検出部Ｐｏｓｔ３は、データＤ２ＢからデータＤ１Ｂの境界（映像に人物が写り始めた時刻、あるいは、映像から人物が消えた時刻）を特定し、人物を検出する処理を実行し、当該検出結果を含むデータＤｏｕｔを出力する。

上記により、映像識別システム３０００Ａでは、時間的に連続するデータから、特定の区切り（本実施形態では、映像に人物が写り始めた時刻、あるいは、映像から人物が消えた時刻）を検出する処理を実行することができる。そして、映像識別システム３０００Ａでは、第１実施形態と同様の手法を用いているので、検出結果を取得するまでの時間が短く、その結果、リアルタイムで検出処理を実行することができる。

≪第２変形例≫
次に、第３実施形態の第２変形例について、説明する。

図１２は、第３実施形態の第２変形例に係る映像識別システム３０００Ｂの概略構成図である。

第３実施形態の第２変形例では、第２実施形態の話者識別システム２０００のデータ分割装置１００Ａと同様の構成を有するデータ分割装置１００Ｂを用いて、映像識別システム３０００Ｂを構築し、映像識別処理（犯罪行為検出処理）を実現させる方法について説明する。

映像識別システム３０００Ｂは、図１２に示すように、第３実施形態の映像識別システム３０００において、映像データ取得部Ｐｒｅ２を映像データ取得部Ｐｒｅ４に置換し、シーンチェンジ検出部Ｐｏｓｔ２を犯罪行為検出部Ｐｏｓｔ４に置換した構成を有している。

映像データ取得部Ｐｒｅ４は、入力データＤｉｎ（例えば、映像データ、あるいは、映像データをＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）により圧縮して取得したデータ）から時間的に連続したデータを取得し、取得したデータをデータＤ１Ｂとしてデータ分割装置１００Ｂに出力する。

ニューラルネットワーク部２２では、学習処理において、第１実施形態と同様の処理が実行される。なお、第１実施形態のニューラルネットワーク部２２では、センテンスの区切り位置において教師データｙ_ｔのｙ_ｔ ^＜ｋ＞の値を「１」として学習処理を実行したが、本実施形態のニューラルネットワーク部２２では、人物が検出された時刻（犯罪行為の開始時刻、あるいは、犯罪行為の終了時刻）を区切り位置として当該区切り位置において教師データｙ_ｔのｙ_ｔ ^＜ｋ＞の値を「１」として学習処理を実行する。

分割データ取得部２４Ｂは、第１実施形態のセンテンス取得部２４と同様の構成を有しており、境界検出部２３Ｂにより取得された検出結果データδ_ｔに基づいて、データＤ１Ｂをシーンごとのデータに分割する。例えば、分割データ取得部２４Ｂは、検出結果データδ_ｔに基づいて、データＤ１Ｂの境界（犯罪行為の開始時刻、あるいは、犯罪行為の終了時刻）を示すデータ（例えば、特別な記号）を付与したデータをデータＤ２Ｂとして取得し、取得したデータＤ２Ｂを犯罪行為検出部Ｐｏｓｔ４に出力する。

犯罪行為検出部Ｐｏｓｔ４は、データ分割部２Ｂから出力されるデータＤ２Ｂを入力する。犯罪行為検出部Ｐｏｓｔ４は、データＤ２ＢからデータＤ１Ｂの境界（犯罪行為の開始時刻、あるいは、犯罪行為の終了時刻）を特定し、犯罪行為を検出する処理を実行し、当該検出結果を含むデータＤｏｕｔを出力する。

上記により、映像識別システム３０００Ｂでは、時間的に連続するデータから、特定の区切り（本実施形態では、犯罪行為の開始時刻、あるいは、犯罪行為の終了時刻）を検出する処理を実行することができる。そして、映像識別システム３０００Ｂでは、第１実施形態と同様の手法を用いているので、検出結果を取得するまでの時間が短く、その結果、リアルタイムで検出処理を実行することができる。

［他の実施形態］
上記実施形態（変形例を含む）で説明した同時通訳システムの各機能部は、１つの装置（システム）により実現されてもよいし、複数の装置により実現されてもよい。

また、上記実施形態において、入力言語が英語である場合について説明したが、入力言語は英語に限定されることはなく、他の言語であってもよい。つまり、上記実施形態（変形例を含む）の同時通訳システムにおいて、翻訳元言語および翻訳先言語は、任意の言語であってよい。

また上記実施形態で説明した同時通訳システム１０００において、各ブロックは、ＬＳＩなどの半導体装置により個別に１チップ化されても良いし、一部または全部を含むように１チップ化されても良い。

なおここではＬＳＩとしたが、集積度の違いにより、ＩＣ、システムＬＳＩ、スーパーＬＳＩ、ウルトラＬＳＩと呼称されることもある。

また集積回路化の手法はＬＳＩに限るものではなく、専用回路または汎用プロセサで実現してもよい。ＬＳＩ製造後にプログラムすることが可能なＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）や、ＬＳＩ内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサーを利用しても良い。

また上記各実施形態の各機能ブロックの処理の一部または全部は、プログラムにより実現されるものであってもよい。そして上記各実施形態の各機能ブロックの処理の一部または全部は、コンピュータにおいて、中央演算装置（ＣＰＵ）により行われる。また、それぞれの処理を行うためのプログラムは、ハードディスク、ＲＯＭなどの記憶装置に格納されており、ＲＯＭにおいて、あるいはＲＡＭに読み出されて実行される。

また上記実施形態の各処理をハードウェアにより実現してもよいし、ソフトウェア（ＯＳ（オペレーティングシステム）、ミドルウェア、あるいは所定のライブラリとともに実現される場合を含む。）により実現してもよい。さらにソフトウェアおよびハードウェアの混在処理により実現しても良い。

例えば上記実施形態の各機能部をソフトウェアにより実現する場合、図１３に示したハードウェア構成（例えばＣＰＵ、ＧＰＵ、ＲＯＭ、ＲＡＭ、入力部、出力部、通信部、記憶部（例えば、ＨＤＤ、ＳＳＤ等により実現される記憶部）、外部メディア用ドライブ等をバスＢｕｓにより接続したハードウェア構成）を用いて各機能部をソフトウェア処理により実現するようにしてもよい。

また上記実施形態の各機能部をソフトウェアにより実現する場合、当該ソフトウェアは、図１３に示したハードウェア構成を有する単独のコンピュータを用いて実現されるものであってもよいし、複数のコンピュータを用いて分散処理により実現されるものであってもよい。

また上記実施形態における処理方法の実行順序は、必ずしも上記実施形態の記載に制限されるものではなく、発明の要旨を逸脱しない範囲で、実行順序を入れ替えることができるものである。

前述した方法をコンピュータに実行させるコンピュータプログラム、及びそのプログラムを記録したコンピュータ読み取り可能な記録媒体は、本発明の範囲に含まれる。ここでコンピュータ読み取り可能な記録媒体としては、例えば、フレキシブルディスク、ハードディスク、ＣＤ−ＲＯＭ、ＭＯ、ＤＶＤ、ＤＶＤ−ＲＯＭ、ＤＶＤ−ＲＡＭ、大容量ＤＶＤ、次世代ＤＶＤ、半導体メモリを挙げることができる。

上記コンピュータプログラムは、上記記録媒体に記録されたものに限らず、電気通信回線、無線または有線通信回線、インターネットを代表とするネットワーク等を経由して伝送されるものであってもよい。

なお本発明の具体的な構成は、前述の実施形態に限られるものではなく、発明の要旨を逸脱しない範囲で種々の変更および修正が可能である。

本発明によれば、文章を構成する単語数に関係なく、リアルタイムで文章分割処理を実行することができる文章分割方法、センテンス・セグメンテーション装置を実現することができる。このため本発明は、自然言語処理関連産業分野において有用であり、当該分野において実施することができる。

１０００同時通訳システム
１００文章分割装置（データ・セグメンテーション装置）
１閾値ベクトル設定部
２センテンス分割部
２１単語取得部
２２ニューラルネットワーク部
２３文章境界検出部
２４センテンス取得部

Claims

時系列に連続するデータであるシーケンスデータを構成する単位データを入力し、
各要素がシーケンスデータの境界位置である確率を示すデータであるｍ個（ｍ：自然数）の要素と、もう１つの要素との合計ｍ＋１個の要素からなるｍ＋１次元ベクトルデータを出力するニューラルネットワーク部と、
前記ニューラルネットワーク部から出力される前記ｍ＋１次元ベクトルデータに基づいて、シーケンスデータの境界位置を決定する境界検出部と、
を備えるデータ・セグメンテーション装置。
前記ニューラルネットワーク部は、
再帰型ニューラルネットワークを含む、
請求項１に記載のデータ・セグメンテーション装置。
ｍ次元の閾値ベクトルを設定する閾値ベクトル設定部をさらに備え、
前記境界検出部は、
前記ｍ次元の閾値ベクトルと前記ｍ＋１次元ベクトルデータとに基づいて、シーケンスデータの境界位置を決定する、
請求項１または２に記載のデータ・セグメンテーション装置。
前記境界検出部は、
前記ｍ次元の閾値ベクトルのｍ個の要素と、前記ｍ＋１次元ベクトルデータのシーケンスデータの境界位置である確率を示すデータであるｍ個の要素とを、それぞれ、比較することにより、シーケンスデータの境界位置を決定する、
請求項３に記載のデータ・セグメンテーション装置。
前記境界検出部は、
前記ｍ次元の閾値ベクトルのｍ個の要素と、前記ｍ＋１次元ベクトルデータのシーケンスデータの境界位置である確率を示すデータであるｍ個の要素とを、検出する対象のシーケンスデータの境界位置が現時刻から時間的に近い順に、比較することで文章の境界位置を決定する処理を行い、文章の境界位置が決定されたとき、以降の比較処理を行わない、
請求項４に記載のデータ・セグメンテーション装置。
前記閾値ベクトル設定部は、
値Ｆ_１を
Ｆ_１＝２×Ｐｒｅｃｉｓｉｏｎ×Ｒｅｃａｌｌ／（Ｐｒｅｃｉｓｉｏｎ＋Ｒｅｃａｌｌ）
Ｐｒｅｃｉｓｉｏｎ：正しいと予測したデータのうち、実際に正しいデータであった割合
Ｒｅｃａｌｌ：実際に正しいデータであるもののうち、正しいと予測されたデータの割合
とし、
評価値ｓｃｏｒｅを
ｓｃｏｒｅ＝Ｆ_１−α×ｌａｔｅｎｃｙ
ｌａｔｅｎｃｙ：遅延時間（遅延量）
α：係数
としたとき、
閾値ベクトルθをチューニングするために用いるデータセットにおいて、前記評価値ｓｃｏｒｅが所定の値よりも大きな値となるように、閾値ベクトルθを設定する、
請求項３から５のいずれかに記載のデータ・セグメンテーション装置。