JP5212725B2

JP5212725B2 - 電子書籍作成支援装置

Info

Publication number: JP5212725B2
Application number: JP2009019124A
Authority: JP
Inventors: 徹也石川; 直之伊藤; 英二新堀
Original assignee: Dai Nippon Printing Co Ltd
Current assignee: Dai Nippon Printing Co Ltd
Priority date: 2009-01-30
Filing date: 2009-01-30
Publication date: 2013-06-19
Anticipated expiration: 2029-01-30
Also published as: JP2010176450A

Description

本発明は電子書籍の作成支援装置に関し、特に、複数頁からなる文書データに基づいて、索引をもった電子書籍を作成する作業を支援するための装置に関する。

近年、コンピュータ技術の発達に伴い、文書の電子化が急速に進んでいる。書籍についても電子化が行われており、コンピュータ等の情報処理装置により文書データを処理して画面表示することにより電子書籍として利用されている。

このような電子書籍では、紙媒体の書籍と同様に索引が用意されているものがあるが、この索引は電子書籍の本文へのリンク情報が記録されており、索引をクリックすることにより、対応する本文を表示させることが可能となっている。このような電子書籍を作成する場合、索引とすべき語句を自動的に本文中から抽出することにより、索引の作成処理を効率化する技術も既に提案されている（特許文献１参照）。

特開２０００−２５０９０８号公報

上記特許文献１に記載の技術では、あらかじめ索引語抽出用の辞書を用意しておき、本文中の単語のうち、辞書に収録されている単語を索引語として抽出する。このため、あらかじめ辞書を用意する部分のコストが大きいという問題がある。

そこで、本発明は、あらかじめ索引語抽出用の辞書を用意する必要なく、電子書籍の本文文書データより索引語を抽出することが可能な電子書籍作成支援装置を提供することを課題とする。

上記課題を解決するため、本発明では、本文文書データを記憶した文書データ記憶手段と、前記本文文書データに対して形態素解析を実行し、形態素、および各形態素の品詞情報からなる形態素解析データを得る形態素解析手段と、前記形態素解析データに含まれる形態素の品詞情報を用い、前記本文文書データ中の各品詞について、品詞ｃ１と品詞ｃ２の出現に相関がない仮説Ｈ１、品詞ｃ１と品詞ｃ２の出現に相関がある仮説Ｈ２を設定し、各仮説の尤度Ｌ（Ｈ１）、Ｌ（Ｈ２）を算出し、算出した尤度Ｌ（Ｈ１）、Ｌ（Ｈ２）の対数比λに基づき、相関スコアを算出する相関スコア算出手段と、本文文書データ中の連続する２つの単語について、それぞれの品詞情報を用いて相関スコアを得て、当該相関スコアを事前に設定されたスコア閾値と比較し、相関が高いと判断される場合に、前記連続する２つの単語を索引語として本文文書データから抽出する索引語抽出手段と、前記作成された索引語の集合である索引語データを前記本文文書データに付加する電子書籍作成手段を有する電子書籍作成支援装置を提供する。

本発明によれば、本文文書データを形態素解析した後、得られた形態素解析データの品詞情報を基に品詞情報の２つ組に関する尤度比検定を実行して品詞情報間の相関を求め、本文中の連続する２つの形態素のうち、その品詞情報の相関が高いものを索引語として抽出するようにしたので、あらかじめ索引語抽出用の辞書を用意する必要なく、電子書籍の本文文書データより索引語を抽出することが可能となる。

本発明によれば、あらかじめ索引語抽出用の辞書を用意する必要なく、電子書籍の本文文書データより索引語を抽出することが可能となるという効果を奏する。

本発明に係る電子書籍作成支援装置の構成図である。本文文書データ１３０の概念図である。形態素解析の例を示す図である。相関スコア算出手段１０６による相関スコア算出処理を説明するための図である。相関スコア算出手段１０６により算出された相関スコアデータ１５０の例を示す図である。電子書籍作成支援装置の処理動作の概要を示すフローチャートである。

（１．装置構成）
以下、本発明の好適な実施形態について図面を参照して詳細に説明する。図１は、本発明に係る電子書籍作成支援装置の一実施形態を示す構成図である。本実施形態の電子書籍作成支援装置は、本文文書データ１３０を記憶手段１２０に格納するための文書データ入力手段１０２と、本文文書データ１３０から品詞情報付きの形態素に分解した形態素解析データ１４０を作成する形態素解析手段１０４と、形態素解析データ１４０から相関スコアデータ１５０を算出するための相関スコア算出手段１０６と、形態素解析データ１４０と相関スコアデータ１５０から索引語データ１６０を作成する索引語抽出手段１０８と、本文文書データ１３０と索引語データ１６０から索引リンク情報１７０を作成する索引リンク情報作成手段１１０と、本文文書データ１３０と索引語データ１６０と索引リンク情報１７０から書籍データ１８０を作成する電子書籍作成手段１１２と、スコア閾値値１９０を記憶手段１２０に格納するスコア設定手段１１４により構成されている。

文書データ入力手段１０２は、本文文書データ１３０を記憶手段１２０に格納する。本文文書データ１３０は、文字列を含む複数ページの情報からなり、作成すべき電子書籍の本文を構成する文書データである。図２に、この本文文書データ１３０の概念図を示す。図示の例では、複数ページからなる電子書籍の本文が構成されており、第１ページ目には、書籍名１として「暦法」という文字列、および見出し２として「§１．太陽暦と太陰暦」という文字列が割り付けられた後、本文文章３が割り付けられている。文書データ入力手段１０２は、具体的には、記憶媒体の読取装置、ネットワーク用の通信装置等により実現される。

形態素解析手段１０４は、本文文書データ１３０を形態素に分割する。文書を形態素に分割する際には、形態素解析手段１０４は、各形態素についての品詞情報を付与する。図３は、形態素解析の例である。図３に示すように、文書中の文字列“伊藤直之著”を入力すると、形態素解析処理により文字列が形態素に分割される。処理結果として、形態素「伊藤」「直之」「著」とともに、各形態素に関する品詞情報である「名詞−固有名詞−人名−姓」「名詞−固有名詞−人名−名」「名詞−接尾−人名」が出力される。このような形態素解析手段１０４による形態素解析処理は、公知の技術であるので、詳細な説明は省略する。

相関スコア算出手段１０６は、形態素解析データ１４０を用いて、品詞情報の２つ組ごとに尤度比検定による相関スコアを算出する。図４は相関スコア算出手段１０６による相関スコア算出処理を説明するための図である。尤度比検定においては、まず、連続して出現した品詞情報（品詞クラス）について、２種の仮説を設定する。Ｈ１では、前の品詞クラスｃ１の出現と後の品詞クラスｃ２の出現との間には相関が無いという仮説を設定している。ここで、Ｐ（ｃ２｜ｃ１）は、品詞クラスｃ１の形態素が出現したときに、直後に品詞クラスｃ２の形態素が出現する確率を表す。一方、Ｈ２では、前の品詞クラスｃ１の出現と後の品詞クラスｃ２の出現との間には相関があるという仮説を設定している。ここで、Ｐ（ｃ２｜¬ｃ１）は、品詞クラスｃ１の形態素が出現しなかったときに、直後に品詞クラスｃ２の形態素が出現する確率を表す。これら２つの仮説について、文書中における各品詞クラスの連続出現数をカウントし、品詞情報の２つ組ごとに各仮説の尤度（尤もらしさ）を算出し、それら２つの仮説の尤度の対数比を基に相関スコアを求める。図４の相関スコアの算出において、Ｌ（Ｈ１）はＨ１について二項分布を用いて算出した尤度である。同様に、Ｌ（Ｈ２）はＨ２について二項分布を用いて算出した尤度である。これらの尤度の比率として対数比をとり、相関スコアを算出する。

相関スコアの算出処理についてさらに詳細に説明する。テキスト中の形態素のべ数をＮ、テキスト中で品詞Ｃ１が出現した数をＮＣ１、テキスト中で品詞Ｃ２が出現した数をＮＣ２、テキスト中で品詞Ｃ１と品詞Ｃ２が連続で出現した数をＮＣ１２とすると、図４に示した仮説Ｈ１、Ｈ２におけるｐ、ｐ１、ｐ２はそれぞれ以下の数式〔数１〕に示すように設定される。〔数１〕において、ｐは品詞Ｃ２の出現する確率であり、ｐ１は品詞Ｃ１が出現した直後に品詞Ｃ２が出現する確率であり、ｐ２は品詞Ｃ１以外が出現した直後に品詞Ｃ２が出現する確率である。

ここで、二項分布を利用する。二項分布とは、確率ｘで起こる事象がｎ回の試行で何回起こるかを表す離散確率分布である。ある事象が起こる確率の分布が二項分布であると仮定すると、確率ｘで起こる事象がｎ回の試行でｋ回起きる確率は以下の数式〔数２〕で求められる。

したがって、単語の連続出現確率が二項分布に基づくと仮定すると、仮説Ｈ１と仮説Ｈ２の尤度Ｌ（Ｈ１）、Ｌ（Ｈ２）はそれぞれ以下の数式〔数３〕で求められることになる。

本発明では、前の品詞クラスｃ１の出現と後の品詞クラスｃ２の出現との間には相関が無いという仮説Ｈ１の尤度Ｌ（Ｈ１）と、前の品詞クラスｃ１の出現と後の品詞クラスｃ２の出現との間には相関があるという仮説Ｈ２の尤度Ｌ（Ｈ２）の対数比λに基づき、相関スコア“−λ”を求める。対数比λに−１を乗じるのは、相関スコアが大きいほど相関が大、相関スコアが小さいほど相関が小、とするためである。対数比λは、以下の数式〔数４〕で求められる。

すなわち、相関スコア算出手段１０６は、本文文書データ１３０と、形態素解析手段１０４により得られた形態素解析データ１４０を用いて、本文文書データ１３０内の全ての品詞情報の２つ組に対して、上記数式〔数４〕に従った処理を実行し、相関スコア“−λ”を算出する。

相関スコア算出手段１０６により算出された相関スコア“−λ”を含む相関スコアデータ１５０の例を図５に示す。相関スコア算出手段１０６により、各品詞情報の２つ組に対して０〜１の相関スコアが算出され、記憶手段１２０に格納される。図５において、ｃ１が「名詞−固有名詞−人名−姓」、ｃ２が「名詞−固有名詞−人名−名」のとき、相関スコアは０．９２であり、「名詞−固有名詞−人名−姓」の直後には、「名詞−固有名詞−人名−名」が出現する確率が大きいことがわかる。一方、ｃ１が「名詞−固有名詞−人名−名」、ｃ２が「名詞−接尾−人名」のとき、相関スコアは０．３８であり、「名詞−固有名詞−人名−名」の直後には、「名詞−接尾−人名」が出現する確率が小さいことがわかる。図５に示した相関スコアデータ１５０は、本文文書データ単位で作成されるため、異なる本文文書データに対して実行した場合、異なる相関スコアを有するものとなる。

スコア設定手段１１４は、品詞情報の２つ組について算出された相関スコアと比較して、本文文書データ１３０中の名詞組を索引語とするかどうかを決定するためのスコア閾値１９０を設定するものであり、キーボード、マウス等のコンピュータに接続された入力機器により実現される。スコア設定手段１１４により設定されたスコア閾値１９０は、記憶手段１２０に記憶される。

索引語抽出手段１０８は、相関スコア算出手段１０６により算出された各品詞情報の２つ組の相関スコアデータ１５０と、記憶手段１２０に記憶されているスコア閾値１９０を用いて、索引語データ１６０を作成する。具体的には、本文文書データ１３０中の名詞組について、その品詞情報を用いて相関スコアデータ１５０を参照し、その品詞情報の２つ組の相関が高いかどうかを判断する。相関が高いかどうかの判断は、相関スコアがスコア閾値１９０よりも大きいかどうかにより行う。したがって、上記のように相関スコアを“−λ”として算出した場合は、スコア閾値１９０より大きい場合に相関が高いと判断するが、相関スコアを“λ”として算出した場合は、スコア閾値１９０より小さい場合に相関が高いと判断する。そして相関が高いと判断した場合には、その名詞組を索引語として抽出する。そして、索引語抽出手段１０８は、本文文書データ１３０から抽出した索引語の集合を索引語データ１６０として記憶手段１２０に記憶する。

例えば、相関スコアが“０．７”に設定されている状態で、図３に示したように、“伊藤直之著”という語が本文として入力された場合を考えてみる。この場合、図５に示したように、「伊藤直之」という名詞組の相関スコアは“０．９２”で相関スコア“０．７”より大きく、「直之著」という名詞組の相関スコアは“０．３８”で相関スコア“０．７”より小さい。したがって、この場合、索引語抽出手段１０８は、「伊藤直之」を索引語として抽出し、「直之著」は抽出しない。

索引リンク情報作成手段１１０は、索引語抽出手段１０８により抽出された索引語を用いて本文文書データ１３０を検索し、索引語が本文文書データ１３０中のどの箇所に出現するかを求め、索引リンク情報１７０を作成する。具体的には、各索引語について、本文文書データ１３０を検索し、マッチした箇所を全て記録する。このような索引リンク情報作成手段１１０による索引リンク情報作成処理は、特許文献１にも記載があるように公知の技術であるので、詳細な説明は省略する。

電子書籍作成手段１１２は、本文文書データ１３０と索引リンク情報１７０を用いて、索引語参照のためのリンクをもつ書籍データ１８０を作成する。具体的には、まず、索引リンク情報１７０を用いて、各索引語の参照情報ページを作成する。このような電子書籍作成手段１１２による処理は、特許文献１にも記載があるように公知の技術であるので、詳細な説明は省略する。参照情報ページには、索引語が出現するページ番号と、索引語を含む該当箇所の文字列がリストアップされている。次に、本文文書データ１３０中の索引語の出現箇所に、参照情報ページへのリンクを挿入する。この結果、索引語参照のためのリンクをもつ電子書籍が作成される。図１に示した電子書籍作成支援装置は、現実には、汎用のコンピュータに専用のプログラムを組み込むことにより実現される。

（２．処理動作）
次に、図１に示した電子書籍作成支援装置の処理動作について説明する。図６は、電子書籍作成支援装置の処理動作の概要を示すフローチャートである。処理開始前に、スコア設定手段１１４によりスコア閾値１９０は設定されている。スコア閾値が設定された状態で、処理を開始すると、文書データ入力手段１０２が、本文文書データ１３０を入力する（Ｓ１）。次に、形態素解析手段１０４が、本文文書データ１３０を形態素に分割する（Ｓ２）。

続いて、相関スコア算出手段１０６が、形態素解析データ１４０を用いて、品詞情報の２つ組ごとに、相関スコアを算出する（Ｓ３）。次に、索引語抽出手段１０８が、相関スコア算出手段１０６により算出された各品詞情報の２つ組の相関スコアを参照して、本文文書データ１３０中の名詞組に対応する品詞情報の２つ組の相関スコアと、記憶手段１２０に記憶されているスコア閾値を比較し、スコア閾値より大きい相関スコアをもつ名詞組を索引語として抽出する（Ｓ４）。

続いて、索引リンク情報作成手段１１０が、索引語抽出手段１０８により抽出された索引語を用いて索引リンク情報１７０を作成する（Ｓ５）。そして、電子書籍作成手段１１２が、本文文書データ１３０と索引リンク情報１７０を用いて、索引語参照のためのリンクをもつ書籍データ１８０を作成し、記憶手段１２０に格納する（Ｓ６）。

本発明は、文書データをコンピュータ等の情報処理装置により処理して表示させるための電子書籍を作成する際に、その索引を自動的に作成することにより、電子書籍の作成支援を行う産業に利用することができる。

１０２・・・文書データ入力手段
１０４・・・形態素解析手段
１０６・・・相関スコア算出手段
１０８・・・索引語抽出手段
１１０・・・索引リンク情報作成手段
１１２・・・電子書籍作成手段
１１４・・・スコア設定手段
１２０・・・記憶手段
１３０・・・本文文書データ
１４０・・・形態素解析データ
１５０・・・相関スコアデータ
１６０・・・索引語データ
１７０・・・索引リンク情報
１８０・・・書籍データ
１９０・・・スコア閾値

Claims

本文文書データを記憶した文書データ記憶手段と、
前記本文文書データに対して形態素解析を実行し、形態素、および各形態素の品詞情報からなる形態素解析データを得る形態素解析手段と、
前記形態素解析データに含まれる形態素の品詞情報を用い、前記本文文書データ中の各品詞について、品詞ｃ１と品詞ｃ２の出現に相関がない仮説Ｈ１、品詞ｃ１と品詞ｃ２の出現に相関がある仮説Ｈ２を設定し、各仮説の尤度Ｌ（Ｈ１）、Ｌ（Ｈ２）を算出し、算出した尤度Ｌ（Ｈ１）、Ｌ（Ｈ２）の対数比λに基づき、相関スコアを算出する相関スコア算出手段と、
本文文書データ中の連続する２つの単語について、それぞれの品詞情報を用いて相関スコアを得て、当該相関スコアを事前に設定されたスコア閾値と比較し、相関が高いと判断される場合に、前記連続する２つの単語を索引語として本文文書データから抽出する索引語抽出手段と、
前記作成された索引語の集合である索引語データを前記本文文書データに付加する電子書籍作成手段と、
を有することを特徴とする電子書籍作成支援装置。
索引語抽出手段により抽出された索引語を用いて本文文書データを検索し、索引語が本文文書データ中のどの箇所に出現するかを求め、索引リンク情報を作成する索引リンク情報作成手段をさらに有し、
前記電子書籍作成手段は、前記索引リンク情報を前記本文文書データおよび索引語データに付加することを特徴とする請求項１に記載の電子書籍作成支援装置。
コンピュータを、請求項１または請求項２に記載の電子書籍作成支援装置として機能させるためのプログラム。