JP2021043924A - 電子文書の閲覧用電子データの保存装置、保存方法 - Google Patents

電子文書の閲覧用電子データの保存装置、保存方法 Download PDF

Info

Publication number
JP2021043924A
JP2021043924A JP2019176194A JP2019176194A JP2021043924A JP 2021043924 A JP2021043924 A JP 2021043924A JP 2019176194 A JP2019176194 A JP 2019176194A JP 2019176194 A JP2019176194 A JP 2019176194A JP 2021043924 A JP2021043924 A JP 2021043924A
Authority
JP
Japan
Prior art keywords
result
parsing
display
electronic
character string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2019176194A
Other languages
English (en)
Inventor
多一 石川
Taichi Ishikawa
多一 石川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to JP2019176194A priority Critical patent/JP2021043924A/ja
Publication of JP2021043924A publication Critical patent/JP2021043924A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

【課題】電子化された文書の視認性を向上させ、読者の読書の精度および速度を向上させる閲覧用電子データ入力装置を提供する。【解決手段】電子文書の閲覧用電子データ入力装置10において、文字コード、表示位置及び書式情報を有する文字群で構成される文字列データ12xを入力する文字列データ入力装置12と、文字列データ12xを構文解析し、名詞句とそれ以外という単位で分割された構文解析結果14xを出力する構文解析装置14と、構文解析結果14xを表示する表示装置16と、構文解析結果14xの修正を入力する入力装置18と、構文解析結果14xと修正結果を保存する保存装置20と、を有する。【選択図】図2

Description

本発明は、電子文書を閲覧する際に利用される電子文書データの保存方法に関する。
電子文書の需要、供給が日々増大している。電子文書の例としてはインターネット上で公開される論文、電子書籍等が挙げられる。本明細書のような特許公報もその一例である。また、最終的に紙に印刷する場合でも、推敲段階では電子データであることが多い。
文書が媒体(例えば、紙、PCやスマートフォンのディスプレー等)に表示される際には、それを読む人が読みやすいようにするための工夫がなされたりする。例えば英語の場合、文章をスペース(デリミタ)で区切ることで単語を認識しやすいようにしている。日本語の場合は、そのようなデリミタは存在しないが、漢字、ひらがな、カタカナを使い分けることにより視認性を向上させたりする。
電子化された文書の場合、上記の伝統的な工夫に加えて、読者が読みやすい形に加工して読むことが可能である。例えば文書中の一部の文字を書式変更する、ということが往々にしてなされる。
1つ目の例としては、Webブラウザ上で文書を読んでいる際に、読者が気になる単語、句、節の検索をした後で、検索語がハイライトされるという工夫がなされたりする。
2つ目の例としては、プログラムのソースコードを統合開発環境やエディタに表示する際に、各プログラミング言語の文法に従って、そのソースコードが着色されたりする(シンタックスハイライト)。
単語単位で電子文書の一部を書式変更した場合、読書という観点では視認性が悪い状態になることがある。上記問題点に対する解決手段の一例としては、本発明に関連する出願(特願2018ー198768)に対応する公報に示された発明が挙げられる。そこでは名詞句の特定が重要になっている。名詞句の特定には、決定論、確率論ベースの構文解析が用いられる。しかし、構文解析は書き手が特定しない限り完璧ではない。
本発明は、上記を鑑みてなされたものであって、電子化された文書の視認性を向上させ、読者の読書の精度および速度を向上させることを目的とする。
本発明である電子文書の閲覧用電子データ入力装置10は以下を有する。すなわち、
文字コード、表示位置、および書式情報を有する文字群で構成される文字列データ12xを入力する文字列データ入力装置12と、
前記文字列データ12xを構文解析し、名詞句とそれ以外という単位で分割された構文解析結果14xを出力する構文解析装置14と、
前記構文解析結果14xを表示する表示装置16と、
前記構文解析結果14xの修正を入力する入力装置18と、
前記構文解析結果14xと修正結果を保存する保存装置20と、
である。
さらに、本発明である電子文書データの入力方法は以下の工程を有する。すなわち、
文字コード、表示位置、および書式情報を有する文字群で構成される文字列データ12xを入力する工程と、
前記文字列データ12xを構文解析し、名詞句とそれ以外という単位で分割された二構文解析結果14xを出力する工程と、
前記構文解析結果14xを表示する工程と、
前記構文解析結果14xの修正を入力する工程と、
前記構文解析結果14xと修正結果を保存する工程と、
である。
ここで、名詞句とは指示代名詞により置き換えることが可能な単位を指すものとする。さらに、前記構文解析結果14xの表示は、名詞句と判定された範囲内で一様となる形の書式変更等でなされる。
名詞句の特定を目的としてなされる構文解析結果の表示は、名詞句と判定された範囲内で一様となる形でなされる。これにより、文書のつくり手が構文解析の結果を見て、自身の思う最良の名詞句単位となるように構文解析結果を修正する。修正された結果を元に、のちに読者が当該電子文書を閲覧する際に違和感のない名詞句単位で書式変更することができることとなる。
このあたりの閲覧用電子機器の構造、書式変更の方法、およびその効果の詳細については、本発明に関連する出願(特願2018ー198768)に対応する公報を参照されたい。
図1は、本発明の特徴を最もよく表す代表図であり、ある発明を説明する文書の一部(以下発明文書とする)に本発明を適用したものである。 図2は、本発明の構成要素を本発明の工程の流れとともに示した図である。 図3は、前記発明文書そのものである。 図4は、図3中の名詞句をサイクリックに強調したものであり、名詞句は最小の単位で分節されている。 図5は、図4中の一部名詞句を大きな名詞句単位に拡大して分節したものである。 図6は、前記発明文書の一部名詞句の構文解析に失敗しているものである。 図7は、図6の構文解析結果を修正したものである。
以下、本発明を実施するための形態について詳細を説明する。
まず、文字列データ12xを構文解析装置14に入力する文字列データ入力装置12を用意する。文字列データ12xは、文字コード122x、表示位置124x、および書式126xを有する文字群で構成される。文字列データ12xは例えばdocx形式やpdf、html等の形で与えられる。他にも、それらの情報が予め得られていないもの(例えば紙の文書)に対しては、光学的文字認識(OCR)を適用することにより、前記3情報を得ることも可能である。ここで書式情報126aとは、フォント名(Times New Roman,明朝体等)、太字(ボールド体)、斜体(イタリック体)、下線(アンダーライン)、マーカー、色、大きさなどの、読者の視認性に影響する情報を指す。文字列データ入力装置12は、HDDやSSDなどの記憶装置や、サーバーを想定しているが、文字列データを与えるものであれば何でも良い。
次に前記文字列データ12xを構文解析し、名詞句とそれ以外という単位で分割された構文解析結果14xを与える構文解析装置14を用意する。なお、名詞句とは、指示代名詞により置き換え可能な単位を指すものとする。以下、日本語と英語の適用例を挙げる。
日本語文書の場合、構文解析装置14として例えばMecabなどの形態素解析器を利用することができる。Mecabの出力結果から名詞句を抽出する簡素な方法として、例えば、助詞や句読点で挟まれた部分を抽出し、そこから動詞的要素を含むものは除く、という操作が一例としてあげられる。ただし、このやり方に限られるものではない。例えば、付加的要素、特許公報であれば例えば、「第一の○○」について「第一」と「○○」の2つの名詞句があるのではなく、「第一の○○」という一つの名詞句として扱う、と例外ルールを設ける等の工夫ができる。後者の場合も、名詞句は指示代名詞で置き換えられるものというルールに合致している。Mecabによる形態素解析の結果から、このように名詞句をさまざまな態様で抽出するのは、本発明の技術の分野における通常の知識を有するものならば容易である。
英語文書であれば、構文解析器14として例えばStanford Parserを利用して名詞句(Noun Phrase)を抽出することができる。なお、名詞句としての抽出方法は日本語の場合と同様、複数ありうる。例えば前置詞で分節する場合としない場合、などの違いが存在する。
次に、前記構文解析結果14xを修正する入力装置16について、詳細を説明する。
前記構文解析結果14xは、文書の書き手や読者が臨む結果となっていないことがある。例えば、名詞句の一部を動詞と勘違いしたり、その逆もある。その結果文章中の各領域で名詞句単位の区切り方について複数の可能性が存在しうる。これは例えば確率論的アプローチを用いた構文解析の場合、句構造について教師データを用意することになるが、対象となる文書の領域のものを用意し、それ以外の領域のものを排除することは、十分な形で行われないことが多いためである。
そこで、前記構文解析結果14xを当該文書の書き手が修正し、その結果18xを入力する入力装置18を用意する。前記修正入力時には、当該書き手が前記構文解析結果14xを観察しながらなされる。観察のために、前記構文解析結果14xを表示する表示装置16を用意する。表示装置16としては、例えばパソコンやタブレット、スマートフォンのグラフィックボードとディスプレーの構成が挙げられる。入力装置18としては、例えばキーボード、マウス、タッチパネルなどが挙げられる。
表示の際には、例えば名詞句とそれ以外について異なる書式にもとづいた表示がなされる。例えば、名詞句については文書を前から読んでいった際の出現について、奇数回目と偶数回目で書式を変更する、名詞句以外については書式変更しない、というやり方がある。奇数、偶数回を区別するのは、名詞句が連続で出現した際に、両者を区別するためになされる。例えば、He gave her a pen.という文章の場合、herとa penは名詞句であるが連続している。書式の変更としては色の変更が視認性の観点で有利である。文字の色自体を変えたり、マーカーを引いたり、下線を引いたりするなどである。
修正の際には、対象となる領域に何らかの働きかけを行うことで名詞句に基づく文章の切り分けについて複数の可能性を切り替えることも可能である。働きかけというのは、例えばPCで編集している際には、対象領域をマウスでクリックするなどである。以下、この状況を前提として説明する。修正のやり方として、まずは最小の名詞句の単位となるような構文解析結果を表示しておく。あと少し修正すればいい、という状況であれば、その領域の左右に微調整する。もっと大きく修正したい場合には、その領域をクリックすれば次の大きさの候補を表示する、そして正しければ確定、正しくなければ再度上の流れを検討する、というものである。
修正の後、その結果と矛盾がないように構文解析器を再度適用することも可能である(18y)。名詞句として確定した領域を、これ以上文節不可能で左右の語句と連結しないような指示代名詞、英語であれば例えばitのようなもので置き換えることで可能となる。
名詞句(Noun Phrase)側でなく、そうでない領域、例えば動詞句(Verbal Phrase)側を修正することも当然可能である。
最後に、構文解析器が出力した結果と、書き手が一部修正した結果を合わせて保存する保存装置20について説明する。
保存は例えばテキストファイルの形式でなされる。構文解析の結果と修正結果の全体を保存することもあれば、編集者が句として確定した領域のみ保存することも可能である。ここで保存された内容にもとづいて、後に読者が電子文書を閲覧する際に書式変更が行われる。具体的には名詞句内での書式変更が一様になされる形である。このあたりの閲覧用電子機器の構造、書式変更の方法、およびその効果の詳細については、本発明に関連する出願(特願2018ー198768)に対応する公報を参照されたい。
以上が本発明の実施の形態である。次に具体的な実施例として英語の文書に対して本発明を適用した結果を示す。なお色を変更するのが視認性を最も向上させるが、特許文書の都合上、カラー表示はできないので、それ以外の書式を変えて説明している。
(実施形態)
図1および図3ないし図7は、ある発明を説明する文書の一部(以下発明文書とする)に本発明を適用したものの一例である。以下、これらを得るまでの手順を具体的に説明する。
図3に示されているのが、最初に与えられた電子文書を表示した結果である。書式はTimes New Romanのプレーンな表示となっている。
次に、図4に示されているのが、図3に対して構文解析を行った結果得られた名詞句に対して、偶数回目と奇数階目の出現に対して「ボールド体」と、「ボールドかつイタリック体」の変更をサイクリックに適用したものである。ここでは、名詞句単位として最小となるように文章が分節されている。名詞句といっても、we,you,this,whichなどの頻出する代名詞等については名詞句以外として扱っている。この方が視認性が良い場合が多々ある。なお図1もこの図4と同様の処理をかけた結果である。
次に、図5に示されているのが、図4に対して一部名詞句に対して名詞句単位を一つ拡大したものである。これは構文解析によって図4のものが得られた後、書き手が更にこの単位で書式変更したほうが、読者が読みやすいと判断して名詞句を拡大したシナリオになる。拡大の際には例えばoutstanding辺りをクリックすることで、このような一段階広めの名詞句単位に拡大し、それを書き手が確定する、という流れを採れる。
次に、図6は図3の文書に対して誤った構文解析がなされた結果である。−ingという分詞(coloring,Highlighting,programming)は動詞として扱われる場合もあれば、名詞句の一部として扱われる場合もある。この例は構文解析の結果動詞として扱われた場合である。更にcoloredがAgda coloredという形で名詞句の一部扱いとされている。これはcolored byという動詞句に含めるのが適切であるといえるが、構文解析がこのように失敗することもある。
この結果に対して書き手が修正をかけたのが図7である。具体的な修正方法としては例えば、documentをクリックすることでその左か右のどちらに展開して修正するかを決めるボタンのついた小ウィンドウをポップアップさせて、書き手が方向を決定するなどのやり方がある。修正の後、例えば”programming language Agda”という単位で名詞句を確定させた場合は、その修正を確定した文書全体を再度構文解析器にかけることも可能である。その場合は例えば”programming language Agda”を”it”というこれ以上分節しようがなく、かつ他の語と結合したグループを作らないような名詞句の最小単位に置き換えたあとで、再度構文解析をかける。するとcoloredが自然とcolored byとして結合した動詞句として解析される。
これらのように修正した結果は電子データとして保存され、後に読者が読書をする際に用いられる。保存データは構文解析結果と修正結果の両方としても良いが、後者だけでも良い。
10 電子文書の閲覧用電子機器
12 文字列データ入力装置
12x 文字列データ
14 構文解析装置
14x 構文解析結果
16 表示装置
18 入力装置
18x 入力結果
18y 入力結果の構文解析装置への反映
20 保存装置

Claims (8)

  1. 電子文書の閲覧用電子データ保存装置であって、
    文字コード、表示位置、および書式情報を有する文字群で構成される文字列データを入力する文字列データ入力装置と、
    前記文字列データを構文解析し、指示代名詞により置き換え可能な名詞句とそれ以外という単位で分割された構文解析結果を出力する構文解析装置と、
    前記構文解析結果を表示する表示装置と、
    前記構文解析結果の修正データを入力する入力装置と、
    前記構文解析結果と修正結果を保存する保存装置と、を有し、
    前記構文解析結果の表示は、前記構文解析によって名詞句と判定された範囲内で一様な書式変更であることを特徴とする、
    電子文書の閲覧用電子データ保存装置。
  2. 電子文書データの保存方法であって、
    文字コード、表示位置、および書式情報を有する文字群で構成される文字列データを入力する工程と、
    前記文字列データを構文解析し、指示代名詞により置き換え可能な名詞句とそれ以外という単位で分割された構文解析結果を出力する工程と、
    前記構文解析結果を表示する工程と、
    前記構文解析結果の修正を入力する工程と、
    前記構文解析結果と修正結果を保存する工程と、を有し、
    前記構文解析結果の表示は、前記構文解析によって名詞句と判定された範囲内で一様な書式変更であることを特徴とする、
    電子文書データの保存方法。
  3. 前記構文解析結果の表示は、前記構文解析によって名詞句と判定された各領域に対するサイクリックな書式変更であることを特徴とする請求項1に記載の電子文書の閲覧用電子データ保存装置
  4. 前記構文解析結果の表示は、前記構文解析によって名詞句と判定された各領域に対するサイクリックな書式変更であることを特徴とする請求項2に記載の電子文書データの保存方法
  5. 前記構文解析結果の表示は、前記構文解析によって名詞句と判定された各領域を参照することで前記各領域の周辺について別の構文解析結果と切り替えられることを特徴とする請求項1に記載の電子文書の閲覧用電子データ保存装置
  6. 前記構文解析結果の表示は、前記構文解析によって名詞句と判定された各領域を参照することで前記各領域の周辺について別の構文解析結果と切り替えられることを特徴とする請求項2に記載の電子文書データの保存方法
  7. 前記構文解析結果の修正を入力したのち、前記修正を反映した構文解析を行いその結果を表示することを特徴とした請求項1に記載の電子文書の閲覧用電子データ保存装置
  8. 前記構文解析結果の修正を入力したのち、前記修正を反映した構文解析を行いその結果を表示することを特徴とした請求項2に記載の電子文書データの保存方法
JP2019176194A 2019-09-07 2019-09-07 電子文書の閲覧用電子データの保存装置、保存方法 Pending JP2021043924A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019176194A JP2021043924A (ja) 2019-09-07 2019-09-07 電子文書の閲覧用電子データの保存装置、保存方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019176194A JP2021043924A (ja) 2019-09-07 2019-09-07 電子文書の閲覧用電子データの保存装置、保存方法

Publications (1)

Publication Number Publication Date
JP2021043924A true JP2021043924A (ja) 2021-03-18

Family

ID=74862468

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019176194A Pending JP2021043924A (ja) 2019-09-07 2019-09-07 電子文書の閲覧用電子データの保存装置、保存方法

Country Status (1)

Country Link
JP (1) JP2021043924A (ja)

Similar Documents

Publication Publication Date Title
US7895030B2 (en) Visualization method for machine translation
US9817887B2 (en) Universal text representation with import/export support for various document formats
Van Dongen LATEX and Friends
Kottwitz LaTeX beginner's guide
Gutherz et al. Translating Akkadian to English with neural machine translation
Kottwitz LaTeX Beginner's Guide: Create visually appealing texts, articles, and books for business and science using LaTeX
US11410575B2 (en) Interface and tools for accessible textbook generation
Morgado Microsoft Word Secrets: The why and how of getting word to do what you want
JPS59165179A (ja) 辞書引方式
JP2021043924A (ja) 電子文書の閲覧用電子データの保存装置、保存方法
Abufardeh et al. Software localization: the challenging aspects of Arabic to the localization process (Arabization)
Zaghouani et al. The qatar arabic language bank guidelines
Percillier Creating and analyzing literary corpora
US11379661B2 (en) Word verification editing for simple and detailed text editing
JP7223450B2 (ja) 自動翻訳装置及び自動翻訳プログラム
JP2020057337A (ja) 電子文書の閲覧用電子機器、表示方法
Lambert et al. MOS 2016 Study Guide for Microsoft Word
Balogh et al. DHARMA Encoding Guide for Diplomatic Editions
Lepper et al. Technical Topologies of Texts
JP2007316834A (ja) 日本語文章修正装置、日本語文章修正方法および日本語文章修正のためのプログラム
Gruman iBooks Author for dummies
JP2023118646A (ja) 電子文書の閲覧用電子機器、表示方法
Renear Representing Text on the Computer: Lessons for and from Philosophy
JP2005157412A (ja) 機械翻訳装置及び、プログラム、記録媒体
Hallot , Getting Started with Writer

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191209