JP5212725B2 - 電子書籍作成支援装置 - Google Patents

電子書籍作成支援装置 Download PDF

Info

Publication number
JP5212725B2
JP5212725B2 JP2009019124A JP2009019124A JP5212725B2 JP 5212725 B2 JP5212725 B2 JP 5212725B2 JP 2009019124 A JP2009019124 A JP 2009019124A JP 2009019124 A JP2009019124 A JP 2009019124A JP 5212725 B2 JP5212725 B2 JP 5212725B2
Authority
JP
Japan
Prior art keywords
document data
speech
index
correlation
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2009019124A
Other languages
English (en)
Other versions
JP2010176450A (ja
Inventor
徹也 石川
直之 伊藤
英二 新堀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dai Nippon Printing Co Ltd
Original Assignee
Dai Nippon Printing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dai Nippon Printing Co Ltd filed Critical Dai Nippon Printing Co Ltd
Priority to JP2009019124A priority Critical patent/JP5212725B2/ja
Publication of JP2010176450A publication Critical patent/JP2010176450A/ja
Application granted granted Critical
Publication of JP5212725B2 publication Critical patent/JP5212725B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は電子書籍の作成支援装置に関し、特に、複数頁からなる文書データに基づいて、索引をもった電子書籍を作成する作業を支援するための装置に関する。
近年、コンピュータ技術の発達に伴い、文書の電子化が急速に進んでいる。書籍についても電子化が行われており、コンピュータ等の情報処理装置により文書データを処理して画面表示することにより電子書籍として利用されている。
このような電子書籍では、紙媒体の書籍と同様に索引が用意されているものがあるが、この索引は電子書籍の本文へのリンク情報が記録されており、索引をクリックすることにより、対応する本文を表示させることが可能となっている。このような電子書籍を作成する場合、索引とすべき語句を自動的に本文中から抽出することにより、索引の作成処理を効率化する技術も既に提案されている(特許文献1参照)。
特開2000−250908号公報
上記特許文献1に記載の技術では、あらかじめ索引語抽出用の辞書を用意しておき、本文中の単語のうち、辞書に収録されている単語を索引語として抽出する。このため、あらかじめ辞書を用意する部分のコストが大きいという問題がある。
そこで、本発明は、あらかじめ索引語抽出用の辞書を用意する必要なく、電子書籍の本文文書データより索引語を抽出することが可能な電子書籍作成支援装置を提供することを課題とする。
上記課題を解決するため、本発明では、本文文書データを記憶した文書データ記憶手段と、前記本文文書データに対して形態素解析を実行し、形態素、および各形態素の品詞情報からなる形態素解析データを得る形態素解析手段と、前記形態素解析データに含まれる形態素の品詞情報を用い、前記本文文書データ中の各品詞について、品詞c1と品詞c2の出現に相関がない仮説H1、品詞c1と品詞c2の出現に相関がある仮説H2を設定し、各仮説の尤度L(H1)、L(H2)を算出し、算出した尤度L(H1)、L(H2)の対数比λに基づき、相関スコアを算出する相関スコア算出手段と、本文文書データ中の連続する2つの単語について、それぞれの品詞情報を用いて相関スコアを得て、当該相関スコアを事前に設定されたスコア閾値と比較し、相関が高いと判断される場合に、前記連続する2つの単語を索引語として本文文書データから抽出する索引語抽出手段と、前記作成された索引語の集合である索引語データを前記本文文書データに付加する電子書籍作成手段を有する電子書籍作成支援装置を提供する。
本発明によれば、本文文書データを形態素解析した後、得られた形態素解析データの品詞情報を基に品詞情報の2つ組に関する尤度比検定を実行して品詞情報間の相関を求め、本文中の連続する2つの形態素のうち、その品詞情報の相関が高いものを索引語として抽出するようにしたので、あらかじめ索引語抽出用の辞書を用意する必要なく、電子書籍の本文文書データより索引語を抽出することが可能となる。
本発明によれば、あらかじめ索引語抽出用の辞書を用意する必要なく、電子書籍の本文文書データより索引語を抽出することが可能となるという効果を奏する。
本発明に係る電子書籍作成支援装置の構成図である。 本文文書データ130の概念図である。 形態素解析の例を示す図である。 相関スコア算出手段106による相関スコア算出処理を説明するための図である。 相関スコア算出手段106により算出された相関スコアデータ150の例を示す図である。 電子書籍作成支援装置の処理動作の概要を示すフローチャートである。
(1.装置構成)
以下、本発明の好適な実施形態について図面を参照して詳細に説明する。図1は、本発明に係る電子書籍作成支援装置の一実施形態を示す構成図である。本実施形態の電子書籍作成支援装置は、本文文書データ130を記憶手段120に格納するための文書データ入力手段102と、本文文書データ130から品詞情報付きの形態素に分解した形態素解析データ140を作成する形態素解析手段104と、形態素解析データ140から相関スコアデータ150を算出するための相関スコア算出手段106と、形態素解析データ140と相関スコアデータ150から索引語データ160を作成する索引語抽出手段108と、本文文書データ130と索引語データ160から索引リンク情報170を作成する索引リンク情報作成手段110と、本文文書データ130と索引語データ160と索引リンク情報170から書籍データ180を作成する電子書籍作成手段112と、スコア閾値値190を記憶手段120に格納するスコア設定手段114により構成されている。
文書データ入力手段102は、本文文書データ130を記憶手段120に格納する。本文文書データ130は、文字列を含む複数ページの情報からなり、作成すべき電子書籍の本文を構成する文書データである。図2に、この本文文書データ130の概念図を示す。図示の例では、複数ページからなる電子書籍の本文が構成されており、第1ページ目には、書籍名1として「暦法」という文字列、および見出し2として「§1.太陽暦と太陰暦」という文字列が割り付けられた後、本文文章3が割り付けられている。文書データ入力手段102は、具体的には、記憶媒体の読取装置、ネットワーク用の通信装置等により実現される。
形態素解析手段104は、本文文書データ130を形態素に分割する。文書を形態素に分割する際には、形態素解析手段104は、各形態素についての品詞情報を付与する。図3は、形態素解析の例である。図3に示すように、文書中の文字列“伊藤直之著”を入力すると、形態素解析処理により文字列が形態素に分割される。処理結果として、形態素「伊藤」「直之」「著」とともに、各形態素に関する品詞情報である「名詞−固有名詞−人名−姓」「名詞−固有名詞−人名−名」「名詞−接尾−人名」が出力される。このような形態素解析手段104による形態素解析処理は、公知の技術であるので、詳細な説明は省略する。
相関スコア算出手段106は、形態素解析データ140を用いて、品詞情報の2つ組ごとに尤度比検定による相関スコアを算出する。図4は相関スコア算出手段106による相関スコア算出処理を説明するための図である。尤度比検定においては、まず、連続して出現した品詞情報(品詞クラス)について、2種の仮説を設定する。H1では、前の品詞クラスc1の出現と後の品詞クラスc2の出現との間には相関が無いという仮説を設定している。ここで、P(c2|c1)は、品詞クラスc1の形態素が出現したときに、直後に品詞クラスc2の形態素が出現する確率を表す。一方、H2では、前の品詞クラスc1の出現と後の品詞クラスc2の出現との間には相関があるという仮説を設定している。ここで、P(c2|¬c1)は、品詞クラスc1の形態素が出現しなかったときに、直後に品詞クラスc2の形態素が出現する確率を表す。これら2つの仮説について、文書中における各品詞クラスの連続出現数をカウントし、品詞情報の2つ組ごとに各仮説の尤度(尤もらしさ)を算出し、それら2つの仮説の尤度の対数比を基に相関スコアを求める。図4の相関スコアの算出において、L(H1)はH1について二項分布を用いて算出した尤度である。同様に、L(H2)はH2について二項分布を用いて算出した尤度である。これらの尤度の比率として対数比をとり、相関スコアを算出する。
相関スコアの算出処理についてさらに詳細に説明する。テキスト中の形態素のべ数をN、テキスト中で品詞C1が出現した数をNC1、テキスト中で品詞C2が出現した数をNC2、テキスト中で品詞C1と品詞C2が連続で出現した数をNC12とすると、図4に示した仮説H1、H2におけるp、p1、p2はそれぞれ以下の数式〔数1〕に示すように設定される。〔数1〕において、pは品詞C2の出現する確率であり、p1は品詞C1が出現した直後に品詞C2が出現する確率であり、p2は品詞C1以外が出現した直後に品詞C2が出現する確率である。
Figure 0005212725
ここで、二項分布を利用する。二項分布とは、確率xで起こる事象がn回の試行で何回起こるかを表す離散確率分布である。ある事象が起こる確率の分布が二項分布であると仮定すると、確率xで起こる事象がn回の試行でk回起きる確率は以下の数式〔数2〕で求められる。
Figure 0005212725
したがって、単語の連続出現確率が二項分布に基づくと仮定すると、仮説H1と仮説H2の尤度L(H1)、L(H2)はそれぞれ以下の数式〔数3〕で求められることになる。
Figure 0005212725
本発明では、前の品詞クラスc1の出現と後の品詞クラスc2の出現との間には相関が無いという仮説H1の尤度L(H1)と、前の品詞クラスc1の出現と後の品詞クラスc2の出現との間には相関があるという仮説H2の尤度L(H2)の対数比λに基づき、相関スコア“−λ”を求める。対数比λに−1を乗じるのは、相関スコアが大きいほど相関が大、相関スコアが小さいほど相関が小、とするためである。対数比λは、以下の数式〔数4〕で求められる。
Figure 0005212725
すなわち、相関スコア算出手段106は、本文文書データ130と、形態素解析手段104により得られた形態素解析データ140を用いて、本文文書データ130内の全ての品詞情報の2つ組に対して、上記数式〔数4〕に従った処理を実行し、相関スコア“−λ”を算出する。
相関スコア算出手段106により算出された相関スコア“−λ”を含む相関スコアデータ150の例を図5に示す。相関スコア算出手段106により、各品詞情報の2つ組に対して0〜1の相関スコアが算出され、記憶手段120に格納される。図5において、c1が「名詞−固有名詞−人名−姓」、c2が「名詞−固有名詞−人名−名」のとき、相関スコアは0.92であり、「名詞−固有名詞−人名−姓」の直後には、「名詞−固有名詞−人名−名」が出現する確率が大きいことがわかる。一方、c1が「名詞−固有名詞−人名−名」、c2が「名詞−接尾−人名」のとき、相関スコアは0.38であり、「名詞−固有名詞−人名−名」の直後には、「名詞−接尾−人名」が出現する確率が小さいことがわかる。図5に示した相関スコアデータ150は、本文文書データ単位で作成されるため、異なる本文文書データに対して実行した場合、異なる相関スコアを有するものとなる。
スコア設定手段114は、品詞情報の2つ組について算出された相関スコアと比較して、本文文書データ130中の名詞組を索引語とするかどうかを決定するためのスコア閾値190を設定するものであり、キーボード、マウス等のコンピュータに接続された入力機器により実現される。スコア設定手段114により設定されたスコア閾値190は、記憶手段120に記憶される。
索引語抽出手段108は、相関スコア算出手段106により算出された各品詞情報の2つ組の相関スコアデータ150と、記憶手段120に記憶されているスコア閾値190を用いて、索引語データ160を作成する。具体的には、本文文書データ130中の名詞組について、その品詞情報を用いて相関スコアデータ150を参照し、その品詞情報の2つ組の相関が高いかどうかを判断する。相関が高いかどうかの判断は、相関スコアがスコア閾値190よりも大きいかどうかにより行う。したがって、上記のように相関スコアを“−λ”として算出した場合は、スコア閾値190より大きい場合に相関が高いと判断するが、相関スコアを“λ”として算出した場合は、スコア閾値190より小さい場合に相関が高いと判断する。そして相関が高いと判断した場合には、その名詞組を索引語として抽出する。そして、索引語抽出手段108は、本文文書データ130から抽出した索引語の集合を索引語データ160として記憶手段120に記憶する。
例えば、相関スコアが“0.7”に設定されている状態で、図3に示したように、“伊藤直之著”という語が本文として入力された場合を考えてみる。この場合、図5に示したように、「伊藤直之」という名詞組の相関スコアは“0.92”で相関スコア“0.7”より大きく、「直之著」という名詞組の相関スコアは“0.38”で相関スコア“0.7”より小さい。したがって、この場合、索引語抽出手段108は、「伊藤直之」を索引語として抽出し、「直之著」は抽出しない。
索引リンク情報作成手段110は、索引語抽出手段108により抽出された索引語を用いて本文文書データ130を検索し、索引語が本文文書データ130中のどの箇所に出現するかを求め、索引リンク情報170を作成する。具体的には、各索引語について、本文文書データ130を検索し、マッチした箇所を全て記録する。このような索引リンク情報作成手段110による索引リンク情報作成処理は、特許文献1にも記載があるように公知の技術であるので、詳細な説明は省略する。
電子書籍作成手段112は、本文文書データ130と索引リンク情報170を用いて、索引語参照のためのリンクをもつ書籍データ180を作成する。具体的には、まず、索引リンク情報170を用いて、各索引語の参照情報ページを作成する。このような電子書籍作成手段112による処理は、特許文献1にも記載があるように公知の技術であるので、詳細な説明は省略する。参照情報ページには、索引語が出現するページ番号と、索引語を含む該当箇所の文字列がリストアップされている。次に、本文文書データ130中の索引語の出現箇所に、参照情報ページへのリンクを挿入する。この結果、索引語参照のためのリンクをもつ電子書籍が作成される。図1に示した電子書籍作成支援装置は、現実には、汎用のコンピュータに専用のプログラムを組み込むことにより実現される。
(2.処理動作)
次に、図1に示した電子書籍作成支援装置の処理動作について説明する。図6は、電子書籍作成支援装置の処理動作の概要を示すフローチャートである。処理開始前に、スコア設定手段114によりスコア閾値190は設定されている。スコア閾値が設定された状態で、処理を開始すると、文書データ入力手段102が、本文文書データ130を入力する(S1)。次に、形態素解析手段104が、本文文書データ130を形態素に分割する(S2)。
続いて、相関スコア算出手段106が、形態素解析データ140を用いて、品詞情報の2つ組ごとに、相関スコアを算出する(S3)。次に、索引語抽出手段108が、相関スコア算出手段106により算出された各品詞情報の2つ組の相関スコアを参照して、本文文書データ130中の名詞組に対応する品詞情報の2つ組の相関スコアと、記憶手段120に記憶されているスコア閾値を比較し、スコア閾値より大きい相関スコアをもつ名詞組を索引語として抽出する(S4)。
続いて、索引リンク情報作成手段110が、索引語抽出手段108により抽出された索引語を用いて索引リンク情報170を作成する(S5)。そして、電子書籍作成手段112が、本文文書データ130と索引リンク情報170を用いて、索引語参照のためのリンクをもつ書籍データ180を作成し、記憶手段120に格納する(S6)。
本発明は、文書データをコンピュータ等の情報処理装置により処理して表示させるための電子書籍を作成する際に、その索引を自動的に作成することにより、電子書籍の作成支援を行う産業に利用することができる。
102・・・文書データ入力手段
104・・・形態素解析手段
106・・・相関スコア算出手段
108・・・索引語抽出手段
110・・・索引リンク情報作成手段
112・・・電子書籍作成手段
114・・・スコア設定手段
120・・・記憶手段
130・・・本文文書データ
140・・・形態素解析データ
150・・・相関スコアデータ
160・・・索引語データ
170・・・索引リンク情報
180・・・書籍データ
190・・・スコア閾値

Claims (3)

  1. 本文文書データを記憶した文書データ記憶手段と、
    前記本文文書データに対して形態素解析を実行し、形態素、および各形態素の品詞情報からなる形態素解析データを得る形態素解析手段と、
    前記形態素解析データに含まれる形態素の品詞情報を用い、前記本文文書データ中の各品詞について、品詞c1と品詞c2の出現に相関がない仮説H1、品詞c1と品詞c2の出現に相関がある仮説H2を設定し、各仮説の尤度L(H1)、L(H2)を算出し、算出した尤度L(H1)、L(H2)の対数比λに基づき、相関スコアを算出する相関スコア算出手段と、
    本文文書データ中の連続する2つの単語について、それぞれの品詞情報を用いて相関スコアを得て、当該相関スコアを事前に設定されたスコア閾値と比較し、相関が高いと判断される場合に、前記連続する2つの単語を索引語として本文文書データから抽出する索引語抽出手段と、
    前記作成された索引語の集合である索引語データを前記本文文書データに付加する電子書籍作成手段と、
    を有することを特徴とする電子書籍作成支援装置。
  2. 索引語抽出手段により抽出された索引語を用いて本文文書データを検索し、索引語が本文文書データ中のどの箇所に出現するかを求め、索引リンク情報を作成する索引リンク情報作成手段をさらに有し、
    前記電子書籍作成手段は、前記索引リンク情報を前記本文文書データおよび索引語データに付加することを特徴とする請求項1に記載の電子書籍作成支援装置。
  3. コンピュータを、請求項1または請求項2に記載の電子書籍作成支援装置として機能させるためのプログラム。
JP2009019124A 2009-01-30 2009-01-30 電子書籍作成支援装置 Active JP5212725B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009019124A JP5212725B2 (ja) 2009-01-30 2009-01-30 電子書籍作成支援装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009019124A JP5212725B2 (ja) 2009-01-30 2009-01-30 電子書籍作成支援装置

Publications (2)

Publication Number Publication Date
JP2010176450A JP2010176450A (ja) 2010-08-12
JP5212725B2 true JP5212725B2 (ja) 2013-06-19

Family

ID=42707351

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009019124A Active JP5212725B2 (ja) 2009-01-30 2009-01-30 電子書籍作成支援装置

Country Status (1)

Country Link
JP (1) JP5212725B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5629701B2 (ja) * 2012-01-26 2014-11-26 エヌ・ティ・ティ・コムウェア株式会社 類似度算出装置、類似度算出方法、および類似度算出プログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4015661B2 (ja) * 2004-12-24 2007-11-28 日本電信電話株式会社 固有表現抽出装置、方法、プログラム及びそれを記録した記録媒体
JP2006260601A (ja) * 2006-06-08 2006-09-28 Fujitsu Ltd 索引生成装置及び方法及び記録媒体

Also Published As

Publication number Publication date
JP2010176450A (ja) 2010-08-12

Similar Documents

Publication Publication Date Title
Oufaida et al. Minimum redundancy and maximum relevance for single and multi-document Arabic text summarization
JP3983265B1 (ja) 辞書作成支援システム、方法及びプログラム
Mishra et al. MAULIK: an effective stemmer for Hindi language
Shaalan et al. Arabic word generation and modelling for spell checking.
US8831945B2 (en) Language model generating device, method thereof, and recording medium storing program thereof
Salloum et al. ADAM: Analyzer for dialectal Arabic morphology
WO2014087703A1 (ja) 単語分割装置、単語分割方法、及び単語分割プログラム
JP5751431B2 (ja) 不整合検出システム、方法、およびプログラム
Khan et al. A light weight stemmer for Urdu language: a scarce resourced language
KR101023209B1 (ko) 문서 번역 장치 및 그 방법
JP2004318510A (ja) 対訳情報作成装置、対訳情報作成用プログラム、対訳情報作成方法、対訳情報検索装置、対訳情報検索用プログラム及び対訳情報検索方法
JP2009217689A (ja) 情報処理装置、情報処理方法、及びプログラム
Alotaibi et al. Extending the knowledge of the Arabic sentiment classification using a foreign external lexical source
Sharma et al. Word prediction system for text entry in Hindi
Paul et al. An affix removal stemmer for natural language text in nepali
KR101663038B1 (ko) 개체의 표면형 문자열 용례학습기반에 의한 텍스트에서의 개체 범위 인식 장치 및 그 방법
JP5212725B2 (ja) 電子書籍作成支援装置
JP5447368B2 (ja) 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム
KR20200057824A (ko) 단어 교정 시스템
Aziz et al. A hybrid model for spelling error detection and correction for Urdu language
Ung et al. Combination of features for vietnamese news multi-document summarization
Al Oudah et al. Wajeez: An extractive automatic arabic text summarisation system
CN112257408A (zh) 一种文本对比的方法及相关装置
Borin et al. Language technology for digital linguistics: Turning the linguistic survey of India into a rich source of linguistic information
Ahmed et al. Arabic/english word translation disambiguation approach based on naive bayesian classifier

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20111107

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130131

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130213

R150 Certificate of patent or registration of utility model

Ref document number: 5212725

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160308

Year of fee payment: 3