JP2016071406A - ラベル付与装置、ラベル付与方法、及びプログラム - Google Patents

ラベル付与装置、ラベル付与方法、及びプログラム Download PDF

Info

Publication number
JP2016071406A
JP2016071406A JP2014196638A JP2014196638A JP2016071406A JP 2016071406 A JP2016071406 A JP 2016071406A JP 2014196638 A JP2014196638 A JP 2014196638A JP 2014196638 A JP2014196638 A JP 2014196638A JP 2016071406 A JP2016071406 A JP 2016071406A
Authority
JP
Japan
Prior art keywords
label
probability
document
semantic paragraph
paragraph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2014196638A
Other languages
English (en)
Inventor
和久 大野
Kazuhisa Ono
和久 大野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dai Nippon Printing Co Ltd
Original Assignee
Dai Nippon Printing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dai Nippon Printing Co Ltd filed Critical Dai Nippon Printing Co Ltd
Priority to JP2014196638A priority Critical patent/JP2016071406A/ja
Publication of JP2016071406A publication Critical patent/JP2016071406A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】分類に応じたデータベースを用いることによって、文書の意味段落に適切なラベル付与を行うことができる。
【解決手段】本発明に係るラベル付与装置は、文書の意味段落に付与するラベルと前記ラベルを意味段落へ付与する確率とを対応付けたデータベースを分類毎に記憶する記憶手段と、前記分類を含む文書を入力する入力手段と、前記分類に対応する前記データベースに基づいて前記文書の意味段落にラベルを付与する付与手段と、意味段落にラベルが付与された前記文書を出力する出力手段と、を備えることを特徴とする。
【選択図】図1

Description

本発明は、文書を構造化する技術に関する。特に、文書の意味段落にラベルを付与する技術に関する。
近年、文書の内容を手軽に把握するために、文書を構造化する技術が開発されている。文書構造化技術によれば、文書を、1つの意味を持つまとまり(意味段落)に分け、各意味段落の文脈に沿ったラベルを付与することで、内容を一目で理解するようにする。
例えば、特許文献1では、ラベル付与済みの文書を用いて、ラベル付与モデルを学習しておき、ラベル未付与の意味段落とラベル付与モデルを比較し、最適なラベルを意味段落へ付与する手段が開示されている。
特表2007−512609号公報
しかしながら、特許文献1では、汎用的なラベル付与モデルにより意味段落にラベルを付与していたため、ラベル付与モデルの傾向に沿わない文書では、適切にラベルの付与が行われないという課題があった。
本発明は、上述した課題を解決するためになされたものであり、その目的は、分類に応じたデータベースを用いることによって、文書の意味段落に適切なラベル付与を行うラベル付与装置等を提供することにある。
前述した目的を達成するための第1の発明は、文書の意味段落に付与するラベルと前記ラベルを意味段落へ付与する確率とを対応付けたデータベースを分類毎に記憶する記憶手段と、前記分類を含む文書を入力する入力手段と、前記分類に対応する前記データベースに基づいて前記文書の意味段落にラベルを付与する付与手段と、意味段落にラベルが付与された前記文書を出力する出力手段と、を備えることを特徴とするラベル付与装置である。
第1の発明によって、分類に対応するデータベースを用いて文書の意味段落にラベルを付与するため、分類ごとの傾向を反映した適切なラベルの付与が実現される。
前記データベースは、ラベル毎に単語の出現確率を表す単語出現確率を含み、
前記付与手段は、前記意味段落内の文書を単語に分割し、分割した前記単語の前記単語出現確率を前記データベースから取得し、前記単語出現確率が最も大きいラベルを、前記意味段落に付与することが望ましい。
前記データベースは、ラベル毎に文書中におけるラベルの出現位置の傾向を表すラベル位置確率を含み、前記付与手段は、前記意味段落の前記ラベル位置確率を前記データベースから取得し、前記ラベル位置確率が最も大きいラベルを、前記意味段落に付与することが望ましい。
前記データベースは、ラベル毎に意味段落間でのラベルの遷移の傾向を表すラベル遷移確率を含み、前記付与手段は、前記意味段落の前の意味段落に付与されたラベルから前記意味段落のラベルへの前記ラベル遷移確率を前記データベースから取得し、前記ラベル遷移確率が最も大きいラベルを、前記意味段落に付与することが望ましい。
前述した目的を達成するための第2の発明は、文書の意味段落に付与するラベルと前記ラベルを意味段落へ付与する確率とを対応付けたデータベースを分類毎に記憶するラベル付与装置によるラベル付与方法であって、前記分類を含む文書を入力する入力ステップと、前記分類に対応する前記データベースに基づいて前記文書の意味段落にラベルを付与する付与ステップと、意味段落にラベルが付与された前記文書を出力する出力ステップと、を含むことを特徴とするラベル付与方法である。
第2の発明によって、分類に対応するデータベースを用いて文書の意味段落にラベルを付与するため、分類ごとの傾向を反映した適切なラベルの付与が実現される。
前述した目的を達成するための第3の発明は、コンピュータを、文書の意味段落に付与するラベルと前記ラベルの意味段落へ付与する確率とを対応付けたデータベースを記憶する記憶手段、前記分類を含む文書を入力する入力手段、前記分類に対応する前記データベースに基づいて前記文書の意味段落にラベルを付与する付与手段、意味段落にラベルが付与された前記文書を出力する出力手段、として機能させることを特徴とするプログラムである。
第3の発明によって、分類に対応するデータベースを用いて文書の意味段落にラベルを付与するため、分類ごとの傾向を反映した適切なラベルの付与が実現される。
本発明によれば、分類に応じたデータベースを用いることによって、文書の意味段落に適切なラベル付与を行うことができる。
本発明に係るラベル付与装置1の全体構成を示す図 ラベル情報の一例を示す図 単語出現確率DBの一例を示す図 ラベル位置確率DBの一例を示す図 ラベル遷移確率DBの一例を示す図 単語出現確率DBの生成の流れを示すフローチャート ラベル位置確率DBの生成の流れを示すフローチャート ラベル位置確率を算出する具体例を示す図 ラベル遷移確率DBの生成の流れを示すフローチャート ラベル遷移確率を算出する具体例を示す図 ラベル付与処理の流れを説明するフローチャート 最適なラベルを決定する処理を説明するフローチャート (a)算出された単語出現確率による付与確率の例を示す図(b)算出されたラベル位置確率による付与確率の例を示す図(c)算出されたラベル遷移確率による付与確率の例を示す図(d)全ての付与確率を掛け合わせた値を示す図 入力されたラベル未付与の文書を表す図 ラベルが付与された文書を表す図
以下、図面に基づいて本発明の好適な実施形態について詳細に説明する。
図1は、本発明に係るラベル付与装置1のハードウェア構成の例を示す図である。
ラベル付与装置1は、図1に示すように制御部11、記憶部12、入力部13、表示部14、メディア入出力部15、通信I/F16、周辺機器I/F17等を備え、これらの各部はバス18を介して接続される。なお、図1のハードウェア構成図は一般的なコンピュータの例であり、用途、目的に応じて様々な構成を採ることが可能である。
制御部11は、CPU(Central Processing Unit)、ROM(Read Only Memory)、RAM(Random Access Memory)等で構成される。CPUは、記憶部12、ROM、記録媒体等に格納されるプログラムをRAM上のワークメモリ領域に呼び出して実行し、バス18を介して接続された各装置を駆動制御する。ROMは、不揮発性メモリであり、コンピュータのブートプログラムやBIOS等のプログラム、データ等を恒久的に保持している。RAMは、揮発性メモリであり、記憶部12、ROM、記録媒体等からロードしたプログラム、データ等を一時的に保持するとともに、制御部11が各種処理を行う為に使用するワークメモリ領域を備える。
記憶部12は、例えばHDD(ハードディスクドライブ)であり、制御部11が実行するプログラム、プログラム実行に必要なデータ等が格納される。プログラムに関しては、OSに相当する制御プログラムや、後述の各処理に相当する各アプリケーションプログラムが格納されている。これらの各プログラムコードは、制御部11により必要に応じて読み出されてRAMに移され、CPUに読み出されて各種の手段として実行される。
入力部13は、データの入力を行い、例えば、キーボード、マウス等のポインティングデバイス、テンキー等の入力装置を有する。
表示部14は、制御部11の指示により出力される文書データなどを表示画面に表示させるための表示制御回路を有する。
メディア入出力部15は、例えば、DVDドライブ等のメディア入出力装置であり、データの入出力を行う。
通信I/F(インタフェース)16は、通信制御装置、通信ポート等を有し、LANやインターネット等のネットワークとの通信を媒介する通信インタフェースである。
周辺機器I/F17は、ラベル付与装置1に周辺機器を接続するためのポートである。
バス18は、各装置間の制御信号、データ信号等の授受を媒介する経路である。
図2〜図5は、ラベル付与装置1の記憶部12が保持するデータの一例である。
図2は、文書の意味段落に付与するラベル情報10を示す図である。図2に示すように、「意見」「結論」「例」「話題」「問題」などの意味段落に付与する各ラベルが記憶管理されている。
図3〜図5は、ラベルを付与するために使用する各種データベースを示す図である。各種データベースは、文書の意味段落に付与するラベルとラベルを意味段落へ付与する確率とを対応付けて保持している。
本実施形態では、各種データベースは著者(分類)ごとに、著者(分類)を特定する情報(例えば、著者A、著者B、・・・などの著者名)と紐づいて記憶部12に記憶される。
但し、本発明は、データベースの分類を著者に限定するものではなく、分類の仕方は任意である。例えば、歴史、文学、法律、科学、語学などの分野によって分類してもよいし、取扱説明書、技術論文、カタログなどの文書の種類によって分類してもよい。
以降、各種データベースについて説明する。
図3は「単語出現確率データベース(単語出現確率DB)30」を示す図である。
単語出現確率DB30は、著者(分類)ごとに、ラベルと、そのラベルの意味段落に出現する単語の出現確率とを対応づけて保持している。
例えば、図3の場合、著者Aでは、ラベル「結論」の意味段落において、単語「つまり」が出現する確率が「0.4」、単語「結局」が出現する確率が「0.2」であることを示す。一方、著者Bでは、ラベル「結論」の意味段落において、単語「つまり」が出現する確率が「0.2」、単語「結局」が出現する確率が「0.6」であることを示す。これから、著者Aは文書の結論に“つまり”の語を使用する傾向が強く、著者Bは文書の結論に“結局”の語を使用する傾向が強いことが把握される。
このように著者(分類)ごとに各ラベルの単語の出現確率を保持しておくことで、各著者が各ラベルの意味段落において頻繁に使用する語の傾向などを考慮して、後述するラベル付与が実現される。
図4は「ラベル位置確率データベース(ラベル位置確率DB40)」を示す図である。
ラベル位置確率DB40は、著者(分類)ごとに、各ラベルの文書中における出現位置の確率、を保持している。
例えば、図4の場合、著者Aでは、ラベル「結論」が文書の「前」に位置する確率が「0.2」、文書の「後」に位置する確率が「0.8」である。一方、著者Bでは、ラベル「結論」が文書の「前」に位置する確率が「0.7」、文書の後段に位置する確率が「0.3」である。これから、著者Aは結論を文書の最後に述べる傾向が強く、著者Bは結論を文書の最初に述べる傾向が強いことが把握される。
このように著者(分類)ごとに各ラベルの文書中における出現位置の確率を保持しておくことで、各著者の文書全体の論理構成の傾向などを考慮して、後述するラベル付与が実現される。
図5は「ラベル遷移確率データベース(ラベル遷移確率DB)50」を示す図である。
ラベル遷移確率DB50は、著者(分類)ごとに、あるラベルから次の各ラベルへ遷移する確率を保持している。
例えば、図5の場合、著者Aでは、ラベル「意見」からラベル「理由」に遷移する確率が「0.2」、ラベル「意見」からラベル「例」に遷移する確率が「0.5」である。一方、著者Bでは、ラベル「意見」からラベル「理由」に遷移する確率が「0.5」、ラベル「意見」からラベル「例」に遷移する確率が「0.3」である。これから、著者Aは意見のあとに例を説明する傾向が強く、著者Bは意見のあとに理由を説明する傾向が強いことが把握される。
このように著者(分類)ごとにラベルの遷移確率を保持しておくことで、各著者の文書の流れの傾向などを考慮して、後述するラベル付与が実現される。
以上、各種データベースの内容について説明した。
次に、上述した各種データベースを作成する処理について説明する。尚、本実施形態では、ラベル付与装置1が各種データベースを作成するが、これに限らず、その他コンピュータが各種データベースを作成してもよい。いずれにしても、作成した各種データベースは、ラベル付与装置1の記憶部12に記憶される。
(単語出現確率DBの作成)
まず、図6を参照して、「単語出現確率DB30」を作成する処理について説明する。図6は、ある著者Aの単語出現確率DB30を生成する処理の流れを説明するフローチャートである。
ラベル付与装置1の制御部11は、著者Aの訓練データ60の入力を受付ける(ステップS101)。ここで、訓練データ60とは、例えば、図6に示すように、「意見」「理由」などのラベルが予め付与されている意味段落の文書群である。
制御部11は、入力された著者Aの訓練データ60を単語に分割し(ステップS102)、ラベルごとに単語の出現頻度(出現回数)をカウントし(ステップS103)、ラベルごとに単語の出現確率を算出する(ステップS104)。例えば、制御部11は、あるラベル「label」におけるある単語「word」の出現確率を数式1のように算出する。
Figure 2016071406
ここで、分子のF(label,word)は、ステップS103においてカウントされたあるラベル「label」における単語「word」の出現頻度(出現回数)を表す。分母は、ラベル「label」における全ての単語の出現頻度(出現回数)の総和を表す。
そして、制御部11は、ステップS104において算出した単語の出現確率をラベルごとに単語出現確率DB30に登録する(ステップS105)。
以上の処理は、著者(分類)ごと(著者A、著者B、・・・)に行われ、単語出現確率DB30に順次登録していく。
(ラベル位置確率DBの作成)
次に、図7及び図8を参照して、ラベル位置確率DB40を作成する処理について説明する。図7は、ある著者Aのラベル位置確率DB40を作成する処理の流れを示すフローチャートである。
ラベル付与装置1の制御部11は、ある著者Aの訓練データ70の入力を受付ける(ステップS201)。ここで、訓練データ70とは、例えば、予め意味段落にラベルが付与された著者Aの文書群である。
制御部11は、入力した各文書のラベルを位置ごとにn分割し(ステップS202)、ラベルの位置ごとの出現頻度をカウントし(ステップS203)、ラベルの位置ごとの出現確率を算出する(ステップS204)。
例えば、制御部11は、あるラベル「label」が文書をn分割したうちのi番目の位置(position)で出現する確率を次のように算出する。
Figure 2016071406
ここで、分子のF(label,word)は、ステップS203においてカウントされた、あるラベル「label」がi番目の位置(position)で出現する出現頻度(出現回数)である。分母は、あるラベル「label」の全ての位置での出現頻度(出現回数)の総和である。
そして、制御部11は、ステップS204において算出したラベルの位置ごとの出現確率をラベル位置確率DB40に登録する(ステップS205)。
以上の処理は、著者(分類)ごと(著者A、著者B、・・・)に行われ、ラベル位置確率DB40に順次登録していく。
図8は、上記したラベルの位置ごとの出現確率を算出する具体例を説明する図である。例えば、図8(a)のように各文書に3つのラベルが付与された文書A、文書B、文書Cが訓練データとして入力されたものとする。この場合、例えば図8(b)に示すように、各文書のラベルを、文書の位置ごと(「前」「中」「後」)に3分割し、ラベルの位置ごとの出現頻度をカウントする。図8(b)の場合、ラベル「結論」の位置ごとの出現頻度は、「前」が1、「中」が0、「後」が2である。したがって、図8(c)に示すように、ラベル「結論」の位置ごとの出現確率は、「前」が0.33(≒1/(1+0+2))、「中」が0(=0/(1+0+2))、「後」が、0.67(≒2/(1+0+2))となる。
尚、図8の例では、文書の3つのラベルを「前」「中」「後」の3つに位置分け(分割)した簡単な例を説明したが、訓練データの各文書のラベルの数は任意でよく、また、位置分けの数(分割数n)も任意でよい。
例えば、M個のラベルが付与されている文書をn分割して位置分けする場合を考える。この場合、M/nの商をaとすると、M個のラベルをa個ごとに位置分けしていく。つまり、文書の頭から数えて1番目〜a番目までのa個のラベルが位置1(position)、a+1番目〜2a番目までのa個のラベルが位置2(position)、2a+1番目〜3a番目までのa個のラベルが位置3(position)、・・・といった具合に位置分けしていく。尚、M/nが割り切れず、余りがbとなる場合、最後の位置n(position)には、余りのbを加えたa+b個のラベルが位置分けされる。
(ラベル遷移確率DBの作成)
次に、図9及び図10を参照して、「ラベル遷移確率DB50」を作成する処理について説明する。図9は、ある著者Aのラベル位置確率DBを作成する処理の流れを示すフローチャートである。
ラベル付与装置1の制御部11は、ある著者Aの訓練データ90の入力を受付ける(ステップS301)。ここで、訓練データ90とは、例えば、予め意味段落にラベルが付与された著者Aの文書群である。
制御部11は、ラベルの遷移頻度をカウントし(ステップS302)、ラベルの遷移確率を算出する(ステップS303)。ラベルの遷移頻度とは、著者Aの文書群(訓練データ90)のうち、例えば、ラベルが「意見」から「結論」へ遷移した回数が何回あったかをカウントしたものであり、あるラベルから次のラベルへの遷移の傾向を表すものである。
例えば、制御部11は、あるラベル「label」から次のラベル「label」へ遷移する確率を次のように算出する。
Figure 2016071406
ここで、分子のF(label,label)は、ステップS302においてカウントした、あるラベル「label」から次のラベル「label」への遷移頻度(遷移回数)を表す。分母はあるラベル「label」から全てのラベルへの遷移頻度(遷移回数)の総和を表す。
制御部11は、ステップS303で算出したラベル遷移確率をラベル遷移確率DB50に登録する(ステップS204)。以上の処理は、著者(分類)ごと(著者A、著者B、・・・)に行われ、ラベル遷移確率DB50に順次登録していく。
図10は、上記したラベルの遷移確率を算出する処理の具体例を説明する図である。図10(a)は、著者Aの訓練データから得られたラベル「意見」から各ラベル(「理由」「例」「結論」)へ遷移する回数を示した図である。図10(a)では、ラベル「意見」からラベル「理由」に遷移する回数が「3」、ラベル「意見」からラベル「例」に遷移する回数が「5」、ラベル「意見」からラベル「結論」に遷移する回数が「10」となる。この場合、図10(b)に示すように、ラベル「意見」からラベル「理由」に遷移するラベルの遷移確率は、0.17(≒3/(3+5+10))、ラベル「意見」からラベル「例」に遷移するラベルの遷移確率は、0.28(≒5/(3+5+10))、ラベル「意見」からラベル「結論」に遷移するラベルの遷移確率は、0.56(≒10/(3+5+10))となる。
以上、各種データベースを作成する処理について説明した。
<ラベル付与装置1の動作>
次に、図11〜図15を参照してラベル付与装置1の動作を説明する。
図11は、ラベル付与装置1が実行するラベル付与処理の流れを説明するフローチャートである。ラベル付与装置1はラベル付与処理の各ステップを実行するためのプログラムを制御部11のROMまたは記憶部12等に保持している。ラベル付与装置1の制御部11(CPU)は、このプログラムに従ってラベル付与処理を実行する。
まず、制御部11は、ラベル未付与の文書4の入力を受付ける(ステップS401)。文書4には、著者を特定する書誌情報等が含まれているものとする。
ここで、文書4は、予め、手動若しくは自動でM個の意味段落5に段落分けされているものとする。
図14は入力された文書4の例を示す図である。図14の場合、文書4は予め3つの意味段落5に段落分けされている。
尚、文書4は、入力部13やメディア入出力部15、ネットワークを介して通信I/F16から入力されてもよく、その方法は問わない。
また、本実施形態では、文書4は、予め、手動若しくは自動で意味段落分けされているものとするが、これに限らず、文書4は意味段落分けがされていない文書であっても良い。この場合、制御部11が文書4の入力を受付けたあと、ラベル付与装置1の入力部13を介して手動で意味段落分けを行うか、若しくは、制御部11によって自動で意味段落分けを行う。
次に、制御部11は、ラベルを付与する意味段落5の段落番号mを1に初期化しておく(ステップS402)。
ステップS403以降で、制御部11は、文書4の各意味段落5にラベルを付与していく。
ステップS403において、制御部11は、ラベルが未付与の意味段落5がある場合(m<=M、ステップS3の「Yes」)、ステップS404に移行する。
ステップS404において、制御部11は、ステップS401において入力された文書4の書誌情報等から著者(分類)を取得し、著者(分類)に対応する各種データベースに基づいて、文書4のm番目の意味段落5に最適なラベルを決定し付与する。
ここで、図12及び図13を参照して、最適なラベルを決定し付与する処理について説明する。
以降に示すように、制御部11は、「単語出現確率による付与確率」、「ラベル位置確率による付与確率」、及び「ラベル遷移確率による付与確率」を、著者(分類)に対応する各種データベースから算出し、これらを総合して(各付与確率を掛け合わせた値が最大となる)ラベルを決定する。
図12は、最適なラベルを決定し付与する処理の流れを示すフローチャートである。
(単語確率による付与確率を算出)
ステップS501において、制御部11は、「単語出現確率による付与確率」(単語出現確率DB30から取得し算出される各ラベルを付与する確率)を算出する。具体的には、制御部11は、m番目の意味段落5内の文書を単語に分割し、各単語に対する各ラベルと各確率を、単語出現確率DB30から取得し、取得した確率を掛け合わせて、付与確率として算出する。例えば、分割した意味段落5内の単語の総数をNとすると、制御部11は、あるラベル「label」の「単語確率による付与確率」P(w)を次のように算出する。
Figure 2016071406
「単語確率による付与確率」を算出する具体例を説明する。例えば、現在処理中の段落が、図14に示す文書4の2番目の意味段落5だとする。このとき、2番目の意味段落5の文書(“例えば、A店では、実際の店舗・・・”)を、「例えば」「A店」「実際」「店舗」・・・と単語に分割し、各単語に対する各ラベルと各確率を単語出現確率DB30(図3参照)から取得する。著者(分類)が「著者A」の場合、単語出現確率DB30に単語「例えば」が存在するため、対応するラベル「例」とその確率「0.8」が取得される。他にも意味段落5にラベル「例」に属する単語が存在すれば、その単語の確率を単語出現確率DB30から取得し、取得済みの確率「0.8」に順次掛け合わせていき、ラベル「例」の「単語確率による付与確率」(数式4)が算出される。以上の付与確率を各ラベルについて算出し記憶部12に記憶する。
図13は、図14に示す文書4の各意味段落5に対するラベルの付与確率を示す図である。
例えば、図13(a)は、文書4の各意味段落5に対する各ラベルの「単語出現確率による付与確率」を示す。図13(a)の場合、1番目の意味段落5では、各ラベルのうち、ラベル「話題」の確率「0.4」が最も大きく、2番目の意味段落5では、ラベル「例」の確率「0.8」が最も大きく、3番目の意味段落5では、ラベル「意見」の確率「0.8」が最も大きいことが分かる。
(ラベル位置確率による付与確率を算出)
次に、ステップS502において、制御部11は、「ラベル位置確率によるラベル付与確率」(ラベル位置確率DB40から取得し算出される各ラベルを付与する確率)を算出する。具体的には、制御部11は、ラベルを位置ごとにn分割し、処理中のm番目の意味段落の該当位置(position)における各ラベルと各確率を、ラベル位置確率DB40から取得し、付与確率を算出する。例えば、制御部11は、あるラベル(「label」)の「ラベル位置確率による付与確率」P(p)を次のように算出する。
Figure 2016071406
「ラベル位置確率による付与確率」を算出する具体例を説明する。例えば、図14に示す文書4をラベルの位置ごと(「前」「中」「後」)に3分割した場合を考える。現在処理中の意味段落が2番目の意味段落5の場合、意味段落5の該当位置(「中」)における各ラベルと各確率をラベル位置確率DB40(図4参照)から取得する。例えば、著者(分類)が「著者A」の場合、位置「中」におけるラベル「結論」とその確率「0.0」、位置「中」におけるラベル「例」とその確率「0.4」、・・・を取得し、「ラベル位置確率による付与確率」として算出する。このように算出した各ラベルの付与確率を記憶部12に記憶する。
図13(b)は、図14に示す文書4の各意味段落5に対する各ラベルの「ラベル位置確率による付与確率」を示す。図13(b)の場合、1番目の意味段落5では、各ラベルのうち、ラベル「結論」の確率「0.6」が最も大きく、2番目の意味段落5では、ラベル「意見」の確率「0.6」が最も大きく、3番目の意味段落5では、ラベル「例」の確率「0.5」が最も大きいことが分かる。
(ラベル遷移確率による付与確率算出)
次に、ステップS503において、制御部11は、「ラベル遷移確率によるラベル付与確率」を算出する。具体的には、制御部11は、1つ前のm−1番目の意味段落5に付与したラベル(遷移元)に対する各ラベル(遷移先)と各確率を、ラベル遷移確率DB50から取得し、付与確率を算出する。例えば、制御部11は、あるラベルlabelの「ラベル遷移確率によるラベル付与確率」P(s)を次のように算出する。
Figure 2016071406
ここで、labelBeforeは、1つ前の意味段落5(m−1番目の意味段落5)に付与したラベルを示す。
「ラベル遷移確率によるラベル付与確率」を算出する具体例を説明する。例えば、m−1番目の意味段落5に付与したラベルが「意見」だとすると、ラベル「意見」から次に遷移する各ラベルと各確率を、ラベル遷移確率DB50(図5参照)から取得し算出する。
著者(分類)が「著者A」の場合、遷移元のラベル「意見」の遷移先として、ラベル「理由」とその確率「0.2」、ラベル「例」とその確率「0.5」、・・・を取得し、「ラベル遷移確率による付与確率」として算出する。このように算出した各ラベルの付与確率を記憶部12に記憶する。
図13(c)は、図14に示す文書4の各意味段落5に対する各ラベルの「ラベル遷移確率による付与確率」を示す。1番目の意味段落5では、遷移元のラベルが存在しないため、付与確率は算出されない。2番目の意味段落5では、後述するように1番目の意味段落5の最適なラベルが「話題」と決定されることから、図13(c)に示すように、遷移元のラベル「話題」から次に遷移する各ラベルの確率が算出される。2番目の意味段落5では、ラベル「例」に遷移する確率「0.4」が最も大きいことが分かる。また、3番目の意味段落5では、後述するように2番目の意味段落5の最適なラベルが「例」と決定されることから、図13(c)に示すように、遷移元のラベル「例」から次に遷移する各ラベルの確率が算出される。3番目の意味段落5では、ラベル「意見」に遷移する確率「0.5」が最も大きいことが分かる。
(最適なラベルの決定)
そして、制御部11は、上記したステップS501、S502、及びS503により算出した各ラベルの付与確率に基づいて確率的に最適なラベルを決定し付与する(ステップS504)。
具体的には、制御部11は、数式7に示すように、付与確率P(w)、P(p)、及びP(s)を掛け合わせたP(l)を最大とするラベル(label)を最適なラベル(labeloptimum)として決定する。
Figure 2016071406
図13を参照して、最適なラベルを決定する具体例を説明する。図13(d)は、図13(a)〜(c)に示した「単語出現確率による付与確率」「ラベル位置確率による付与確率」「ラベル遷移確率による付与確率」の3つの確率をラベルごとに掛け合わせた値(上式のP(w)P(p)P(s)又はP(w)P(p))を示す。
図13(d)に示すように、1番目の意味段落5では、ラベル「話題」の値「0.20」(=0.4(単語出現確率による付与確率)×0.5(ラベル位置確率による付与確率))が最も大きいため、ラベル「話題」が最適なラベルとして決定される。尚、上記したように1番目の意味段落5ではラベル遷移確率による付与確率は考慮されない。
また、2番目の意味段落5では、ラベル「例」の値「0.13」(≒0.8(単語出現確率による付与確率)×0.4(ラベル位置確率による付与確率)×0.4(ラベル遷移確率による付与確率))が最も大きいため、ラベル「例」が最適なラベルとして決定される。
さらに、3番目の意味段落5では、ラベル「意見」の値「0.12」(=0.8(単語出現確率による付与確率)×0.3(ラベル位置確率による付与確率)×0.5(ラベル遷移確率による付与確率))が最も大きいため、ラベル「意見」が最適なラベルとして決定される。
以上のように、制御部11は、最適なラベルを決定し各意味段落に付与する。尚、本実施形態では、「単語出現確率による付与確率」「ラベル位置確率による付与確率」「ラベル遷移確率による付与確率」の全てを用いて最適なラベルを決定しているが、これに限らず、上記3つの付与確率のうち1つ又は2つの付与確率を用いて最適なラベルを決定してもよい。
図11のフローチャートの説明に戻る。
ステップS405において、ラベルを付与する意味段落5の段落番号mを次の意味段落5の段落番号に更新し(m←m+1)、ステップS403の処理に戻る。
そして、制御部11は、ステップS403〜ステップS405におけるラベル付与処理を繰り返し実行し、文書4の全ての意味段落5にラベルを付与すると(ステップS3において「Yes」)、ステップS406へ移行し、ラベルが付与された文書4を出力する。
図15は、ステップS406において出力されたラベルが付与された文書4の例を示す図である。
以上、ラベル付与装置1の動作を説明した。本実施形態によれば、著者(分類)に応じたデータベースに基づいて文書の意味段落に最適なラベルを付与する。このため、著者(分類)ごとの傾向(文書表現、論理構成など)を反映した適切なラベルの付与が実現される。尚、前述したとおり、本発明はデータベースの分類を著者に限定するものではない。例えば、データベースの分類は、前述したように文書の分野(歴史、文学、・・・)や、文書の種類(取扱説明書、技術論文、カタログ)などとしてもよい。これにより、分野等に固有の文書の形式や慣習などを反映したデータベースに基づいて最適なラベルを付与することも可能である。
添付図面を参照しながら、本発明に係るラベル付与装置等の好適な実施形態について説明したが、本発明はかかる例に限定されない。当業者であれば、本願で開示した技術的思想の範疇内において、各種の変更例又は修正例に想到し得ることは明らかであり、それらについても当然に本発明の技術的範囲に属するものと了解される。
1 ・・・・・・ラベル付与装置
4 ・・・・・・文書
5 ・・・・・・意味段落
11 ・・・・・制御部
12 ・・・・・記憶部
13 ・・・・・入力部
14 ・・・・・表示部
15 ・・・・・メディア入出力部
16 ・・・・・通信I/F
17 ・・・・・周辺機器I/F
10 ・・・・・ラベル情報
30 ・・・・・単語出現確率データベース
40 ・・・・・ラベル位置確率データベース
50 ・・・・・ラベル遷移確率データベース

Claims (6)

  1. 文書の意味段落に付与するラベルと前記ラベルを意味段落へ付与する確率とを対応付けたデータベースを分類毎に記憶する記憶手段と、
    前記分類を含む文書を入力する入力手段と、
    前記分類に対応する前記データベースに基づいて前記文書の意味段落にラベルを付与する付与手段と、
    意味段落にラベルが付与された前記文書を出力する出力手段と、
    を備えることを特徴とするラベル付与装置。
  2. 前記データベースは、ラベル毎に単語の出現確率を表す単語出現確率を含み、
    前記付与手段は、前記意味段落内の文書を単語に分割し、
    分割した前記単語の前記単語出現確率を前記データベースから取得し、前記単語出現確率が最も大きいラベルを、前記意味段落に付与することを特徴とする請求項1に記載のラベル付与装置。
  3. 前記データベースは、ラベル毎に文書中におけるラベルの出現位置の傾向を表すラベル位置確率を含み、
    前記付与手段は、前記意味段落の前記ラベル位置確率を前記データベースから取得し、前記ラベル位置確率が最も大きいラベルを、前記意味段落に付与することを特徴とする請求項1に記載のラベル付与装置。
  4. 前記データベースは、ラベル毎に意味段落間でのラベルの遷移の傾向を表すラベル遷移確率を含み、
    前記付与手段は、前記意味段落の前の意味段落に付与されたラベルから前記意味段落のラベルへの前記ラベル遷移確率を前記データベースから取得し、前記ラベル遷移確率が最も大きいラベルを、前記意味段落に付与することを特徴とする請求項1に記載のラベル付与装置。
  5. 文書の意味段落に付与するラベルと前記ラベルを意味段落へ付与する確率とを対応付けたデータベースを分類毎に記憶するラベル付与装置によるラベル付与方法であって、
    前記分類を含む文書を入力する入力ステップと、
    前記分類に対応する前記データベースに基づいて前記文書の意味段落にラベルを付与する付与ステップと、
    意味段落にラベルが付与された前記文書を出力する出力ステップと、
    を含むことを特徴とするラベル付与方法。
  6. コンピュータを、
    文書の意味段落に付与するラベルと前記ラベルの意味段落へ付与する確率とを対応付けたデータベースを記憶する記憶手段、
    前記分類を含む文書を入力する入力手段、
    前記分類に対応する前記データベースに基づいて前記文書の意味段落にラベルを付与する付与手段、
    意味段落にラベルが付与された前記文書を出力する出力手段、
    として機能させることを特徴とするプログラム。
JP2014196638A 2014-09-26 2014-09-26 ラベル付与装置、ラベル付与方法、及びプログラム Pending JP2016071406A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014196638A JP2016071406A (ja) 2014-09-26 2014-09-26 ラベル付与装置、ラベル付与方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014196638A JP2016071406A (ja) 2014-09-26 2014-09-26 ラベル付与装置、ラベル付与方法、及びプログラム

Publications (1)

Publication Number Publication Date
JP2016071406A true JP2016071406A (ja) 2016-05-09

Family

ID=55866953

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014196638A Pending JP2016071406A (ja) 2014-09-26 2014-09-26 ラベル付与装置、ラベル付与方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP2016071406A (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007512609A (ja) * 2003-11-21 2007-05-17 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 文書構造化のためのテキストセグメンテーション及びトピック注釈付け
JP2007316743A (ja) * 2006-05-23 2007-12-06 Fujitsu Ltd 部分文書検索プログラム、部分文書検索方法および部分文書検索装置
JP2008280316A (ja) * 2007-05-14 2008-11-20 Taisho Pharm Ind Ltd 経口投与用錠剤
JP2009259109A (ja) * 2008-04-18 2009-11-05 Nippon Telegr & Teleph Corp <Ntt> ラベル付与装置、ラベル付与プログラム、ラベル付与プログラムが記録された記録媒体、および、ラベル付与方法
JP2012009046A (ja) * 2003-11-21 2012-01-12 Nuance Communications Austria Gmbh トピック特異的言語モデルおよびトピック特異的ラベル統計によるユーザー対話を用いたテキストセグメント分割およびラベル付与

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007512609A (ja) * 2003-11-21 2007-05-17 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 文書構造化のためのテキストセグメンテーション及びトピック注釈付け
JP2012009046A (ja) * 2003-11-21 2012-01-12 Nuance Communications Austria Gmbh トピック特異的言語モデルおよびトピック特異的ラベル統計によるユーザー対話を用いたテキストセグメント分割およびラベル付与
JP2007316743A (ja) * 2006-05-23 2007-12-06 Fujitsu Ltd 部分文書検索プログラム、部分文書検索方法および部分文書検索装置
JP2008280316A (ja) * 2007-05-14 2008-11-20 Taisho Pharm Ind Ltd 経口投与用錠剤
JP2009259109A (ja) * 2008-04-18 2009-11-05 Nippon Telegr & Teleph Corp <Ntt> ラベル付与装置、ラベル付与プログラム、ラベル付与プログラムが記録された記録媒体、および、ラベル付与方法

Similar Documents

Publication Publication Date Title
US9824085B2 (en) Personal language model for input method editor
US8810576B2 (en) Manipulation and management of links and nodes in large graphs
CN105786796B (zh) 使用经缩放的概率分割词
JP5802292B2 (ja) 共有された言語モデル
RU2614539C2 (ru) Масштабирование адресной строки и вкладок на основе задачи
US11256996B2 (en) Method for recommending next user input using pattern analysis of user input
WO2008106472A1 (en) Integrated pinyin and stroke input
US20170124462A1 (en) Cognitive intention detection system, method, and recording medium for initiating automated workflow in multimodal messaging
US11556219B2 (en) Interactive display of data distributions
GB2511018A (en) Data display device, data display method and program
US20180189249A1 (en) Providing application based subtitle features for presentation
US9785833B1 (en) System and method for textual near-duplicate grouping of documents
JP2010520532A (ja) 画数の入力
CN106601256A (zh) 语音识别的方法及移动终端
US8571262B2 (en) Methods of object search and recognition
US20080155433A1 (en) Zooming task management
US20150199332A1 (en) Browsing history language model for input method editor
US11366964B2 (en) Visualization of the entities and relations in a document
US9898282B2 (en) Automatic comment creation for computer files
US20180188918A1 (en) Teaching and coaching user interface element with celebratory message
US8847962B2 (en) Exception processing of character entry sequences
US20140278357A1 (en) Word generation and scoring using sub-word segments and characteristic of interest
JP2016071406A (ja) ラベル付与装置、ラベル付与方法、及びプログラム
JP2015191482A (ja) 電子機器、方法及びプログラム
US10928994B2 (en) Processing objects on touch screen devices

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170727

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180522

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180525

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20181113