JP2021043924A

JP2021043924A - 電子文書の閲覧用電子データの保存装置、保存方法

Info

Publication number: JP2021043924A
Application number: JP2019176194A
Authority: JP
Inventors: 多一石川; Taichi Ishikawa
Original assignee: Individual
Current assignee: Individual
Priority date: 2019-09-07
Filing date: 2019-09-07
Publication date: 2021-03-18

Abstract

【課題】電子化された文書の視認性を向上させ、読者の読書の精度および速度を向上させる閲覧用電子データ入力装置を提供する。【解決手段】電子文書の閲覧用電子データ入力装置１０において、文字コード、表示位置及び書式情報を有する文字群で構成される文字列データ１２ｘを入力する文字列データ入力装置１２と、文字列データ１２ｘを構文解析し、名詞句とそれ以外という単位で分割された構文解析結果１４ｘを出力する構文解析装置１４と、構文解析結果１４ｘを表示する表示装置１６と、構文解析結果１４ｘの修正を入力する入力装置１８と、構文解析結果１４ｘと修正結果を保存する保存装置２０と、を有する。【選択図】図２

Description

本発明は、電子文書を閲覧する際に利用される電子文書データの保存方法に関する。

電子文書の需要、供給が日々増大している。電子文書の例としてはインターネット上で公開される論文、電子書籍等が挙げられる。本明細書のような特許公報もその一例である。また、最終的に紙に印刷する場合でも、推敲段階では電子データであることが多い。

文書が媒体（例えば、紙、ＰＣやスマートフォンのディスプレー等）に表示される際には、それを読む人が読みやすいようにするための工夫がなされたりする。例えば英語の場合、文章をスペース（デリミタ）で区切ることで単語を認識しやすいようにしている。日本語の場合は、そのようなデリミタは存在しないが、漢字、ひらがな、カタカナを使い分けることにより視認性を向上させたりする。

電子化された文書の場合、上記の伝統的な工夫に加えて、読者が読みやすい形に加工して読むことが可能である。例えば文書中の一部の文字を書式変更する、ということが往々にしてなされる。

１つ目の例としては、Ｗｅｂブラウザ上で文書を読んでいる際に、読者が気になる単語、句、節の検索をした後で、検索語がハイライトされるという工夫がなされたりする。

２つ目の例としては、プログラムのソースコードを統合開発環境やエディタに表示する際に、各プログラミング言語の文法に従って、そのソースコードが着色されたりする（シンタックスハイライト）。

単語単位で電子文書の一部を書式変更した場合、読書という観点では視認性が悪い状態になることがある。上記問題点に対する解決手段の一例としては、本発明に関連する出願（特願２０１８ー１９８７６８）に対応する公報に示された発明が挙げられる。そこでは名詞句の特定が重要になっている。名詞句の特定には、決定論、確率論ベースの構文解析が用いられる。しかし、構文解析は書き手が特定しない限り完璧ではない。

本発明は、上記を鑑みてなされたものであって、電子化された文書の視認性を向上させ、読者の読書の精度および速度を向上させることを目的とする。

本発明である電子文書の閲覧用電子データ入力装置１０は以下を有する。すなわち、
文字コード、表示位置、および書式情報を有する文字群で構成される文字列データ１２ｘを入力する文字列データ入力装置１２と、
前記文字列データ１２ｘを構文解析し、名詞句とそれ以外という単位で分割された構文解析結果１４ｘを出力する構文解析装置１４と、
前記構文解析結果１４ｘを表示する表示装置１６と、
前記構文解析結果１４ｘの修正を入力する入力装置１８と、
前記構文解析結果１４ｘと修正結果を保存する保存装置２０と、
である。

さらに、本発明である電子文書データの入力方法は以下の工程を有する。すなわち、
文字コード、表示位置、および書式情報を有する文字群で構成される文字列データ１２ｘを入力する工程と、
前記文字列データ１２ｘを構文解析し、名詞句とそれ以外という単位で分割された二構文解析結果１４ｘを出力する工程と、
前記構文解析結果１４ｘを表示する工程と、
前記構文解析結果１４ｘの修正を入力する工程と、
前記構文解析結果１４ｘと修正結果を保存する工程と、
である。

ここで、名詞句とは指示代名詞により置き換えることが可能な単位を指すものとする。さらに、前記構文解析結果１４ｘの表示は、名詞句と判定された範囲内で一様となる形の書式変更等でなされる。

名詞句の特定を目的としてなされる構文解析結果の表示は、名詞句と判定された範囲内で一様となる形でなされる。これにより、文書のつくり手が構文解析の結果を見て、自身の思う最良の名詞句単位となるように構文解析結果を修正する。修正された結果を元に、のちに読者が当該電子文書を閲覧する際に違和感のない名詞句単位で書式変更することができることとなる。

このあたりの閲覧用電子機器の構造、書式変更の方法、およびその効果の詳細については、本発明に関連する出願（特願２０１８ー１９８７６８）に対応する公報を参照されたい。

図１は、本発明の特徴を最もよく表す代表図であり、ある発明を説明する文書の一部（以下発明文書とする）に本発明を適用したものである。図２は、本発明の構成要素を本発明の工程の流れとともに示した図である。図３は、前記発明文書そのものである。図４は、図３中の名詞句をサイクリックに強調したものであり、名詞句は最小の単位で分節されている。図５は、図４中の一部名詞句を大きな名詞句単位に拡大して分節したものである。図６は、前記発明文書の一部名詞句の構文解析に失敗しているものである。図７は、図６の構文解析結果を修正したものである。

以下、本発明を実施するための形態について詳細を説明する。

まず、文字列データ１２ｘを構文解析装置１４に入力する文字列データ入力装置１２を用意する。文字列データ１２ｘは、文字コード１２２ｘ、表示位置１２４ｘ、および書式１２６ｘを有する文字群で構成される。文字列データ１２ｘは例えばｄｏｃｘ形式やｐｄｆ、ｈｔｍｌ等の形で与えられる。他にも、それらの情報が予め得られていないもの（例えば紙の文書）に対しては、光学的文字認識（ＯＣＲ）を適用することにより、前記３情報を得ることも可能である。ここで書式情報１２６ａとは、フォント名（ＴｉｍｅｓＮｅｗＲｏｍａｎ，明朝体等）、太字（ボールド体）、斜体（イタリック体）、下線（アンダーライン）、マーカー、色、大きさなどの、読者の視認性に影響する情報を指す。文字列データ入力装置１２は、ＨＤＤやＳＳＤなどの記憶装置や、サーバーを想定しているが、文字列データを与えるものであれば何でも良い。

次に前記文字列データ１２ｘを構文解析し、名詞句とそれ以外という単位で分割された構文解析結果１４ｘを与える構文解析装置１４を用意する。なお、名詞句とは、指示代名詞により置き換え可能な単位を指すものとする。以下、日本語と英語の適用例を挙げる。

日本語文書の場合、構文解析装置１４として例えばＭｅｃａｂなどの形態素解析器を利用することができる。Ｍｅｃａｂの出力結果から名詞句を抽出する簡素な方法として、例えば、助詞や句読点で挟まれた部分を抽出し、そこから動詞的要素を含むものは除く、という操作が一例としてあげられる。ただし、このやり方に限られるものではない。例えば、付加的要素、特許公報であれば例えば、「第一の○○」について「第一」と「○○」の２つの名詞句があるのではなく、「第一の○○」という一つの名詞句として扱う、と例外ルールを設ける等の工夫ができる。後者の場合も、名詞句は指示代名詞で置き換えられるものというルールに合致している。Ｍｅｃａｂによる形態素解析の結果から、このように名詞句をさまざまな態様で抽出するのは、本発明の技術の分野における通常の知識を有するものならば容易である。

英語文書であれば、構文解析器１４として例えばＳｔａｎｆｏｒｄＰａｒｓｅｒを利用して名詞句（ＮｏｕｎＰｈｒａｓｅ）を抽出することができる。なお、名詞句としての抽出方法は日本語の場合と同様、複数ありうる。例えば前置詞で分節する場合としない場合、などの違いが存在する。

次に、前記構文解析結果１４ｘを修正する入力装置１６について、詳細を説明する。

前記構文解析結果１４ｘは、文書の書き手や読者が臨む結果となっていないことがある。例えば、名詞句の一部を動詞と勘違いしたり、その逆もある。その結果文章中の各領域で名詞句単位の区切り方について複数の可能性が存在しうる。これは例えば確率論的アプローチを用いた構文解析の場合、句構造について教師データを用意することになるが、対象となる文書の領域のものを用意し、それ以外の領域のものを排除することは、十分な形で行われないことが多いためである。

そこで、前記構文解析結果１４ｘを当該文書の書き手が修正し、その結果１８ｘを入力する入力装置１８を用意する。前記修正入力時には、当該書き手が前記構文解析結果１４ｘを観察しながらなされる。観察のために、前記構文解析結果１４ｘを表示する表示装置１６を用意する。表示装置１６としては、例えばパソコンやタブレット、スマートフォンのグラフィックボードとディスプレーの構成が挙げられる。入力装置１８としては、例えばキーボード、マウス、タッチパネルなどが挙げられる。

表示の際には、例えば名詞句とそれ以外について異なる書式にもとづいた表示がなされる。例えば、名詞句については文書を前から読んでいった際の出現について、奇数回目と偶数回目で書式を変更する、名詞句以外については書式変更しない、というやり方がある。奇数、偶数回を区別するのは、名詞句が連続で出現した際に、両者を区別するためになされる。例えば、Ｈｅｇａｖｅｈｅｒａｐｅｎ．という文章の場合、ｈｅｒとａｐｅｎは名詞句であるが連続している。書式の変更としては色の変更が視認性の観点で有利である。文字の色自体を変えたり、マーカーを引いたり、下線を引いたりするなどである。

修正の際には、対象となる領域に何らかの働きかけを行うことで名詞句に基づく文章の切り分けについて複数の可能性を切り替えることも可能である。働きかけというのは、例えばＰＣで編集している際には、対象領域をマウスでクリックするなどである。以下、この状況を前提として説明する。修正のやり方として、まずは最小の名詞句の単位となるような構文解析結果を表示しておく。あと少し修正すればいい、という状況であれば、その領域の左右に微調整する。もっと大きく修正したい場合には、その領域をクリックすれば次の大きさの候補を表示する、そして正しければ確定、正しくなければ再度上の流れを検討する、というものである。

修正の後、その結果と矛盾がないように構文解析器を再度適用することも可能である（１８ｙ）。名詞句として確定した領域を、これ以上文節不可能で左右の語句と連結しないような指示代名詞、英語であれば例えばｉｔのようなもので置き換えることで可能となる。

名詞句（ＮｏｕｎＰｈｒａｓｅ）側でなく、そうでない領域、例えば動詞句（ＶｅｒｂａｌＰｈｒａｓｅ）側を修正することも当然可能である。

最後に、構文解析器が出力した結果と、書き手が一部修正した結果を合わせて保存する保存装置２０について説明する。

保存は例えばテキストファイルの形式でなされる。構文解析の結果と修正結果の全体を保存することもあれば、編集者が句として確定した領域のみ保存することも可能である。ここで保存された内容にもとづいて、後に読者が電子文書を閲覧する際に書式変更が行われる。具体的には名詞句内での書式変更が一様になされる形である。このあたりの閲覧用電子機器の構造、書式変更の方法、およびその効果の詳細については、本発明に関連する出願（特願２０１８ー１９８７６８）に対応する公報を参照されたい。

以上が本発明の実施の形態である。次に具体的な実施例として英語の文書に対して本発明を適用した結果を示す。なお色を変更するのが視認性を最も向上させるが、特許文書の都合上、カラー表示はできないので、それ以外の書式を変えて説明している。

（実施形態）
図１および図３ないし図７は、ある発明を説明する文書の一部（以下発明文書とする）に本発明を適用したものの一例である。以下、これらを得るまでの手順を具体的に説明する。

図３に示されているのが、最初に与えられた電子文書を表示した結果である。書式はＴｉｍｅｓＮｅｗＲｏｍａｎのプレーンな表示となっている。

次に、図４に示されているのが、図３に対して構文解析を行った結果得られた名詞句に対して、偶数回目と奇数階目の出現に対して「ボールド体」と、「ボールドかつイタリック体」の変更をサイクリックに適用したものである。ここでは、名詞句単位として最小となるように文章が分節されている。名詞句といっても、ｗｅ，ｙｏｕ，ｔｈｉｓ，ｗｈｉｃｈなどの頻出する代名詞等については名詞句以外として扱っている。この方が視認性が良い場合が多々ある。なお図１もこの図４と同様の処理をかけた結果である。

次に、図５に示されているのが、図４に対して一部名詞句に対して名詞句単位を一つ拡大したものである。これは構文解析によって図４のものが得られた後、書き手が更にこの単位で書式変更したほうが、読者が読みやすいと判断して名詞句を拡大したシナリオになる。拡大の際には例えばｏｕｔｓｔａｎｄｉｎｇ辺りをクリックすることで、このような一段階広めの名詞句単位に拡大し、それを書き手が確定する、という流れを採れる。

次に、図６は図３の文書に対して誤った構文解析がなされた結果である。−ｉｎｇという分詞（ｃｏｌｏｒｉｎｇ，Ｈｉｇｈｌｉｇｈｔｉｎｇ，ｐｒｏｇｒａｍｍｉｎｇ）は動詞として扱われる場合もあれば、名詞句の一部として扱われる場合もある。この例は構文解析の結果動詞として扱われた場合である。更にｃｏｌｏｒｅｄがＡｇｄａｃｏｌｏｒｅｄという形で名詞句の一部扱いとされている。これはｃｏｌｏｒｅｄｂｙという動詞句に含めるのが適切であるといえるが、構文解析がこのように失敗することもある。

この結果に対して書き手が修正をかけたのが図７である。具体的な修正方法としては例えば、ｄｏｃｕｍｅｎｔをクリックすることでその左か右のどちらに展開して修正するかを決めるボタンのついた小ウィンドウをポップアップさせて、書き手が方向を決定するなどのやり方がある。修正の後、例えば”ｐｒｏｇｒａｍｍｉｎｇｌａｎｇｕａｇｅＡｇｄａ”という単位で名詞句を確定させた場合は、その修正を確定した文書全体を再度構文解析器にかけることも可能である。その場合は例えば”ｐｒｏｇｒａｍｍｉｎｇｌａｎｇｕａｇｅＡｇｄａ”を”ｉｔ”というこれ以上分節しようがなく、かつ他の語と結合したグループを作らないような名詞句の最小単位に置き換えたあとで、再度構文解析をかける。するとｃｏｌｏｒｅｄが自然とｃｏｌｏｒｅｄｂｙとして結合した動詞句として解析される。

これらのように修正した結果は電子データとして保存され、後に読者が読書をする際に用いられる。保存データは構文解析結果と修正結果の両方としても良いが、後者だけでも良い。

１０電子文書の閲覧用電子機器
１２文字列データ入力装置
１２ｘ文字列データ
１４構文解析装置
１４ｘ構文解析結果
１６表示装置
１８入力装置
１８ｘ入力結果
１８ｙ入力結果の構文解析装置への反映
２０保存装置

Claims

電子文書の閲覧用電子データ保存装置であって、
文字コード、表示位置、および書式情報を有する文字群で構成される文字列データを入力する文字列データ入力装置と、
前記文字列データを構文解析し、指示代名詞により置き換え可能な名詞句とそれ以外という単位で分割された構文解析結果を出力する構文解析装置と、
前記構文解析結果を表示する表示装置と、
前記構文解析結果の修正データを入力する入力装置と、
前記構文解析結果と修正結果を保存する保存装置と、を有し、
前記構文解析結果の表示は、前記構文解析によって名詞句と判定された範囲内で一様な書式変更であることを特徴とする、
電子文書の閲覧用電子データ保存装置。
電子文書データの保存方法であって、
文字コード、表示位置、および書式情報を有する文字群で構成される文字列データを入力する工程と、
前記文字列データを構文解析し、指示代名詞により置き換え可能な名詞句とそれ以外という単位で分割された構文解析結果を出力する工程と、
前記構文解析結果を表示する工程と、
前記構文解析結果の修正を入力する工程と、
前記構文解析結果と修正結果を保存する工程と、を有し、
前記構文解析結果の表示は、前記構文解析によって名詞句と判定された範囲内で一様な書式変更であることを特徴とする、
電子文書データの保存方法。
前記構文解析結果の表示は、前記構文解析によって名詞句と判定された各領域に対するサイクリックな書式変更であることを特徴とする請求項１に記載の電子文書の閲覧用電子データ保存装置
前記構文解析結果の表示は、前記構文解析によって名詞句と判定された各領域に対するサイクリックな書式変更であることを特徴とする請求項２に記載の電子文書データの保存方法
前記構文解析結果の表示は、前記構文解析によって名詞句と判定された各領域を参照することで前記各領域の周辺について別の構文解析結果と切り替えられることを特徴とする請求項１に記載の電子文書の閲覧用電子データ保存装置
前記構文解析結果の表示は、前記構文解析によって名詞句と判定された各領域を参照することで前記各領域の周辺について別の構文解析結果と切り替えられることを特徴とする請求項２に記載の電子文書データの保存方法
前記構文解析結果の修正を入力したのち、前記修正を反映した構文解析を行いその結果を表示することを特徴とした請求項１に記載の電子文書の閲覧用電子データ保存装置
前記構文解析結果の修正を入力したのち、前記修正を反映した構文解析を行いその結果を表示することを特徴とした請求項２に記載の電子文書データの保存方法