JP2002163250A - 文書処理装置 - Google Patents

文書処理装置

Info

Publication number
JP2002163250A
JP2002163250A JP2001305858A JP2001305858A JP2002163250A JP 2002163250 A JP2002163250 A JP 2002163250A JP 2001305858 A JP2001305858 A JP 2001305858A JP 2001305858 A JP2001305858 A JP 2001305858A JP 2002163250 A JP2002163250 A JP 2002163250A
Authority
JP
Japan
Prior art keywords
line
character string
output
morpheme
line feed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001305858A
Other languages
English (en)
Inventor
Osamu Yasui
治 安井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2001305858A priority Critical patent/JP2002163250A/ja
Publication of JP2002163250A publication Critical patent/JP2002163250A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【課題】文書を読む際の思考を中断させたりする不都合
が生じないように文章作成の際の改行の仕方の当否を的
確に判断することができる文書処理装置を提供する。 【解決手段】出力すべき文字列を構文分析し、形態素列
の中の各形態素を葉として有する第1の構文解析木と、
該形態素列の中の各形態素を葉として有する第2の構文
解析木とを求める機構と、出力すべき文字列を意味解析
して、該形態素列の中の各形態素の意味属性を求める機
構と、改行位置の好適性と割り付け方向の幅とに関する
所定の評価に基づき、形態素的にまたは意味的に関連が
深く、その出力時に一行中で占有される文字列の長さが
好適であるような改行箇所を決定する機構とを備え、出
力すべき文字列について所要の構文解析および意味解析
を行い、特に意味的に関連が深い文字列部位が同一行に
出力される位置を改行位置として選択する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、ワードプロセッサ等の
日本語の文書処理装置に関するものであり、特に、ある
所定の文書を作成する際の改行位置の選定のまずさに起
因して、当該文書に対して読者の誤解を招いたり、また
は、文書を読む際の思考を中断させたりする不都合が生
じないようにされた、文章作成の際の改行の仕方の当否
を的確に判断することができる文書処理装置に関するも
のである。
【0002】
【従来の技術】従来の日本語文書処理装置においては、
通常、いわゆるべた書きの文章を入力して、べた書きの
文章を出力するようにしていた。このような従来の装置
においては、例えば句点[。]は文章の行頭には来ない
等の、ある特定の文字による禁則処理は行われる(例え
ば特開昭52−161509号公報を参照)ことはある
が、原則的には、(例えば1行当り36文字というよう
な)ある所定の文字数毎に改行するようにされている。
なお、別の刊行物である特開平4−167049号公報
[文書処理装置]には、この発明の技術とやや類似する
技術が開示されているけれども、「実際に割り付けるべ
き文字列の幅をそのフォント、サイズを含む形式で算出
して改行位置の好適性を評価する」ようにしている点で
差異が存するものである。
【0003】
【発明が解決しようとする課題】ところが、上記された
ような従来の日本語文書処理装置においては、取り扱わ
れる文章の内容と文書作成の際の改行位置の選定とは相
互に殆ど無関係に行われていた。このことから、上記従
来の文書処理装置では、以下のように改行位置によって
は著しい誤解を誘発することがあるという問題点があっ
た。即ち、 [1] 例えば図32において示されているように、例
文32Aの文章中に「杉良太郎」なる姓名が出現した場
合、この姓名が「杉(姓)」+「良太郎(名)」なの
か、または、この図32において分割されているような
「杉良(姓)」+「太郎(名)」なのかは、例文32A
を一見しただけでは即座に正しく判断することはできな
い。即ち、作成される文章行の切れ目と、当該文章の構
造的な(意味的な)切れ目とを一致させることなく前記
図32のような改行がなされた場合には、本来は「杉
(姓)」+「良太郎(名)」と解釈すべきところを、
「杉良(姓)」+「太郎(名)」と誤解される恐れが生
じることになる。 [2] また、例えば図33において示されているよう
に、例文33Aの文章中に「男らしい花子/のお兄さ
ん」(ここで、[/]は改行の位置を示す)なる文節が
出現した場合には、その改行の位置のために、意味的に
は無理のない「花子のお兄さん」なる文字列よりも先
に、「男らしい花子」なる文字列が読者の視界に飛び込
んでくることがある。かくして、本来は「男らしい」+
「花子のお兄さん」と解釈されるべきところを、「男ら
しい花子」+「の」+「お兄さん」のように誤解された
り錯覚されたりして、当該読者の思考過程に混乱を生じ
させることになる。ここで生じる読者の思考過程の混乱
は、「男らしい」という文字列を見た読者が、[男性]
を表す語が前記の文字列に続くものと即座に期待したと
ころ、この期待に反して「花子」という[女性]を想起
させる語だけが存在しており、[男性]を想起させる
「お兄さん」という文字列が見当たらないと錯覚するこ
とに起因している。即ち、ここでの読者は、「花子」と
いう文字列を見た瞬間に、期待していた[男性]を表す
語とは正反対の[女性]を表す語が出現したことに矛盾
を感じるとともに、この矛盾を解消する「お兄さん」と
いう文字列が直ちには発見されないことから、その思考
の過程に混乱が生じて当該思考自体が停止してしまうこ
とになる。
【0004】本発明は上記のような問題点に鑑みてなさ
れたものであり、ある所定の文章について意味的に結び
付きが弱い文字同士の間(切れ目)で改行を施すように
して、不用意な改行による読者の誤解や、前記読者の思
考停止等を防止できるようにすることを目的とする。
【0005】
【課題を解決するための手段】本発明は上記問題点を解
決するためになされたものであり、本発明に係る文書処
理装置は、所定の文字列を対象とする割り付け可能領域
の幅と、実際に文字列が割り付けられた領域の幅とを評
価することにより、該所定の文字列における改行箇所を
決定する機構を備えてなる文書処理装置であって、出力
すべき文字列について形態素解析を行うことにより該文
字列を構成する形態素列を求める機構と、出力すべき文
字列を構文分析し、形態素列の中の各形態素を葉として
有する第1の構文解析木と、該形態素列の中の各形態素
を葉として有する第2の構文解析木とを求める機構と、
出力すべき文字列を意味解析して、該形態素列の中の各
形態素の意味属性を求める機構と、ある所定の評価に基
づいて、適切な幅の文字列が同一行に出力可能になるよ
うに、ある所定の文字列の直後における改行位置の好適
性を求める機構と、現在割り付け中の割り付け領域にお
ける割り付け方向の幅を保持する機構と、前記改行位置
の好適性と割り付け方向の幅とに関する所定の評価に基
づき、形態素的にまたは意味的に関連が深く、その出力
時に一行中で占有される文字列の長さが好適であるよう
な改行箇所を決定する機構とを備えてなることを特徴と
するものである。
【0006】
【作用】本発明に係る文書処理装置によれば、所定の文
字列を対象とする割り付け可能領域の幅と、実際に文字
列が割り付けられた領域の幅とを評価することにより、
該所定の文字列における改行箇所を決定する際に、ある
所定の形態素に対応する位置で改行すると一行に割り付
けられる文字列の幅が所定の閾値を満たさないときに
は、予め設定された改行位置の好適性に関する情報に基
づいて、該当の形態素に対応する位置以外の位置での改
行が許容されるという利点が得られ、出力すべき文字列
について所要の構文解析および意味解析を行い、特に意
味的に関連が深い文字列部位が同一行に出力される位置
が改行位置として選択されるという利点が得られる。
【0007】
【実施例】図1は、本発明の第1の実施例に係る文書処
理装置の構成を示すブロック図である。この図1におい
て、第1の構成部としての格納部に含まれるものは「文
書ファイル(1)」および「フォント格納装置(2)」
である。そして、前者である「文書ファイル(1)」に
は、ある所定の文章について、当該文章を構成する文字
列と各文字に対応する表示プロパティの並びとして(文
章の)格納がなされている。なお、ここでの表示プロパ
ティとしては、少なくとも文字毎のフォントおよびサイ
ズを指定するものがある。また、後者である「フォント
格納装置(2)」には、例えば[12ポイントの明朝体
の「あ」]のような、文字毎のフォントが格納されてい
る。次に、第2の構成部としての割り付け部に含まれる
ものは「割り付け装置(3)」および「行バッファ
(6)」である。そして、前者である「割り付け装置
(3)」においては、対象の文章が1文(単位文)ずつ
読み込まれ、また、1行(単位行)ずつ割り付けられ
る。また、後者である「行バッファ(6)」において
は、後段の出力装置(9)に伝送されるべき割り付け結
果が、(1行単位をもって)蓄積されることになる。第
3の構成部としてのレジスタ部に含まれるものは「状態
変数レジスタ(4)」および「全出力幅レジスタ
(5)」である。そして、前者である「状態変数レジス
タ(4)」においては、行バッファ(6)の現在の充満
度を示す所定の値が蓄積される。また、後者である「全
出力幅レジスタ(5)」においては、前記行バッファ
(6)の最大容量を示す所定の値が蓄積されることにな
る。第4の構成部としての改行評価部は「改行可否判定
装置(7)」である。この「改行可否判定装置(7)」
においては、読み込まれた文章に関する解析結果、文字
毎のフォントおよび各レジスタ内の蓄積値に基づいて、
当該文章のある所定の位置における改行の可否(または
改行の好ましさ)のいかんに関する判定がなされる。そ
して、この判定の結果に依存して対象とする文章の改行
箇所が決定され、しかるべき改行命令を発行するように
される。第5の構成部としての解析部は「形態素解析装
置(8)」である。この「形態素解析装置(8)」にお
いては、読み込まれた文章について、所要の形態素解析
が実行される。なお、ここでの第1の実施例に係る文書
処理装置においては、正しい形態素解析結果だけが改行
の可否判定のために用いられる。そして、第6の構成部
としての出力部は「出力装置(9)」である。この「出
力装置(9)」においては、対象とする文章に関する割
り付け処理の結果や、前段の行バッファ(6)側から伝
送された内容が出力される。
【0008】上記第1の実施例装置は以下のように動作
する。即ち、まず「割り付け装置(3)」においては、
「文書ファイル(1)」に格納されている文章を対象と
して、1文(ある所定の単位長の文)ずつ読み込まれ
る。そして、このように読み込まれた文章は、1行分ず
つ「行バッファ(6)」に格納される。このとき、前記
対象とする文章の改行箇所については、「改行可否判定
装置(7)」によって決定され、この決定に基づく所定
の改行命令が発行される。この改行命令を受け取った
「割り付け装置(3)」においては、「行バッファ
(6)」の内容をクリアしながら「出力装置(9)」に
伝送するようにされる。
【0009】「改行可否判定装置(7)」においては、
解析対象として読み込まれた文章、その解析結果、文字
毎のフォント、および、レジスタ部の各レジスタ(状態
変数レジスタ4および全出力幅レジスタ5)に蓄積され
ている値に基づいて、前記の文章における改行箇所を決
定するようにされる。
【0010】ここで読み込まれた文章の解析について
は、解析部をなす「形態素解析装置(8)」によって実
行される。そして、ここで得られた解析結果の所要のも
のは「改行可否判定装置(7)」に対して伝送される。
【0011】文字毎のフォントおよびレジスタ毎の値
は、それぞれに、「フォント格納装置(2)」および各
レジスタ(即ち、「状態変数レジスタ(4)」および
「全出力幅レジスタ(5)」より得られる。なお、ここ
での各レジスタ値は、「割り付け装置(3)」によって
予め設定されるものである。このような割り付け処理が
なされてから、「出力装置(9)」においては、1行分
ずつ受け取った文章を出力するようにされる。
【0012】ここでは、「...今日の会場は日本橋本
町(にほんばし・ほんまち)です。...」なる例の文
章を出力する場合について考察する。ここでの例文にお
いて、前述された従来の方式によると、図2の例文2A
で示されているように、[日本]と[橋本町]との間で
改行されたときには、[日本・橋本町(にほん・はしも
とちょう)]のような甚だしい誤解が起きやすくなって
しまう。これに対して、上記第1の実施例においては、
以下のような改行をするようにされる。前述されたよう
に、「...今日の会場は日本橋本町(にほんばし・ほ
んまち)です。...」なる文章は「文書ファイル
(1)」に格納されている。ここでの「文書ファイル
(1)」には、前記図1に示されているように、ある文
字列(c)と文字毎に対応する表示プロパティ(少なく
ともフォント(f)とサイズ(s)とを含んでいる)の
並びとして、対象の文章が格納されている。
【0013】前記「文書ファイル(1)」に格納されて
いる文章は1文ずつ読み込まれていく。そして、このよ
うに読み込まれた文字列データ(c)は、「形態素解析
装置(8)」によって所要の形態素解析がなされる。こ
こで形態素解析がなされた結果は、「改行可否判定装置
(7)」に保持された「m−W テーブル(71)」
(図4を参照)に書き込まれていく。ここでの「m−W
テーブル(71)」は、形態素毎の出力がなされる際
の出力幅を記載するために用いられるテーブルであり、
以下の4個の要素からなる記載欄の並びを備えている。
即ち、m:形態素;i1:該当の形態素は文の何番目の
文字からなのか;i2:該当の形態素は文の何番目の文
字までなのか;W:該当の形態素を出力する際の出力幅
はいくらなのか;という記載欄の並びを備えている。そ
して、前述された形態素解析の結果として、その中の
m,i1,i2 が求められることになる。
【0014】いま、例えば「今日の会場は日本橋本町で
す。」なる文章部分が読み込まれるとすると、はじめに
下記のような解析がなされる。即ち、[今日/の/会場
/は/日本橋/本町/です。]のような解析がなされ
る。その結果として、前記図4のように「m−W テー
ブル(71)」の m,i1,i2 が(例えば、今日:
1:2:のように)埋められることになる。
【0015】次に、前記「m−W テーブル(71)」
における W の値は次のようにして求められる。いま、
「文書ファイル(1)」に格納された文字列(c),プ
ロパティのフォント(f)およびサイズ(s)が「改行
可否判定装置[7]」を介して与えられると、「フォン
ト格納装置[2]」からは当該の文字を出力する際の出
力幅(w(c,f,s))が得られる。すると、おのお
のの形態素の出力幅(W)は以下の式で求められる。
【数1】
【0016】例えば、「今日の会場は日本橋本町で
す。」の任意の文字のプロパテイが[f=明朝体,s=
12 ポイント]であり、このときの[w(c,f,
s)=1000(ただし, w([。],[明朝体],
[12 ポイント])だけは例外で200)]とする
と、各形態素に対応する W は以下のように求まり、前
記図4における「m−W テーブル(71)」は図5に
示されているように完成する。即ち、「m−W テーブ
ル(71)」における W の欄が所定の値で埋められた
ことになる。
【0017】前記の図5に示されているように「m−W
テーブル(71)」が完成すると、これに続けて割り
付け処理が実行される。ここでの割り付け処理は、「行
バッファ(6)」を有する「割り付け装置(3)」にお
いて1行ずつ実行されるが、対象とする文章の改行位置
の選択については、「改行可否判定装置(7)」におい
て決定されて、対応の改行命令(CR)を下すようにさ
れる。なお、ここでの「改行可否判定装置(7)」にお
いては、対象とする文章の改行位置を決めるために次の
2個の値(G,M)が用いられる。即ち、 [1]G:「割り付け装置(7)」における「行バッフ
ァ(6)」の現在の状態を表す値;この値は「状態変数
レジスタ(4)」に格納されるものである;ここでは、
行バッファ(6)に文字を埋めることができる残りの幅
を示す。 [2]M:「割り付け装置(7)」における現在割り付
け中の「行バッファ(6)」の最大容量幅を表す値;こ
の値は「全出力幅レジスタ(5)」に格納されている。
これらの値は図6に示されたようになる。
【0018】次に、対象とする文章における改行可否の
判定は、図7のフローチャートで示された手順で実行さ
れる。この図7において、例えば、「今日の会場は日本
橋本町です。」なる文章の割り付けをするときには、以
下のような作業がなされる。なお、ここでは次の場面が
想定されている。即ち、 M=20000;G=890
0(現在の行にはすでに11100の幅に割り付けがさ
れている);なる場面が想定されている。まず、割り付
けの対象となるのは「今日」であることから、Step
1において、次に割り付ける形態素の W を m−W テ
ーブル71(図5)から求める。ここで問題とされてい
るものは「今日」であるから、前記の m−W テーブル
71に基づいて W=2000 が求められる。次のSt
ep2においては、現在の対象である「今日」につい
て、G>W?が成立するか否かの判定がなされる。ここ
では G=8900,W=2000,であり、前記の G
>W? は成立する(図8)から、後のStep5に進
む。Step5においては、現在の対象である「今日」
が行バッファ(6)に伝送される。これに続くStep
6においては、次のようにして G を更新する。即ち、
G=8900−2000=6900が、新しい G にさ
れる。次のStep7においては、現在の対象である
「今日」について、これで文章が終りであるか否かの判
定がなされる。ここでは、次の形態素である「の」が続
いており、文章の終りにはならない。そこで、始めのS
tep1に戻って、次に続く形態素の処理を続行するよ
うにされる。そして、以下に続く「の」(W=100
0),「会場」(W=2000),「は」(W=100
0),までは始めの「今日」と同様な割り付け処理がな
される。そして、次に「日本橋」を出力する場面を迎え
ることになる。このときには、G=2900 にされて
いる。ここで改めてStep1に戻り、現在の形態素で
ある「日本橋」が処理の対象にされる。ここで m−W
テーブル71(図5)を参照することにより、W=3
000 が求められる。次のStep2においては、現
在の対象である「日本橋」について、G>W?が成立す
るか否かの判定がなされる。ここでは G=2900,
W=3000,であり、前記の G>W? は成立しない
(図9)から、後続のStep3に進むことになる。後
続のStep3においては、現在の対象である「日本
橋」について、割り付け装置(3)に対して所定の改行
命令を伝送するようにされる。これに続くStep4に
おいては、改行の実行にともなう G の初期化がなされ
る。即ち、G=20000(M)であるようにされる。
後続のStep5においては、現在の対象である「日本
橋」が行バッファ(6)に伝送される。次に続くSte
p6においては、現在の対象である「日本橋」に関連し
て Gの更新がなされる。即ち、G=20000(M)
−3000(W)=17000なる計算に基づく G の
更新がなされる。次のStep7においては、現在の対
象である「日本橋」について、これで文章が終りである
か否かの判定がなされる。ここでは、次の形態素である
「本町」が続いており、文章の終りにはならない。そこ
で、始めのStep1に戻って、次に続く形態素の処理
を続行するようにされる。以下、「本町」(W=200
0),「です。」(W=2200),と同様な割り付け
処理が進行して、最後の形態素である「です。」を対象
とするStep5を迎えることになるが、この「で
す。」は最後の形態素であることから、これに対するS
tep7においては次に続く形態素が存在せず、処理対
象の文章が終ったとして END に進み、これに続く別
の対象の文章に対する処理に入ることになる。
【0019】なお、本発明には割り付け位置情報そのも
のから改行の可否を判定する場合も含まれているが、上
記第1の実施例においては、前記の値 G を「あとどれ
だけの幅の割り付けができるか」を示すものとして改行
の可否を判定する場合について説明した。また、上記第
1の実施例における「割り付け装置(3)」は、ある所
定の改行命令が与えられた時点において、必要に応じて
行バッファ(6)の内容のジャスティファイやセンタリ
ングを行う。そして、その割り付け結果を「出力装置
(9)」に渡し、行バッファ(6)のクリアをする。最
後に、「出力装置(9)」においては、受け取った割り
付け結果を必要に応じて出力することになる。
【0020】図10は、本発明の第2の実施例に係る文
書処理装置(改行評価装置)の構成を示すブロック図で
ある。この図10において、第1の構成部としての格納
部に含まれるものは「文書ファイル(1)」および「フ
ォント格納装置(2)」である。そして、前者である
「文書ファイル(1)」には、ある所定の文章につい
て、当該文章を構成する文字列と各文字に対応する表示
プロパティの並びとして(文章の)格納がなされてい
る。なお、ここでの表示プロパティとしては、少なくと
も文字毎のフォントおよびサイズを指定するものがあ
る。また、後者である「フォント格納装置(2)」に
は、例えば[12ポイントの明朝体の「あ」]のよう
な、文字毎のフォントが格納されている。次に、第2の
構成部としての割り付け部に含まれるものは「割り付け
装置(3)」および「行バッファ(6)」である。そし
て、前者である「割り付け装置(3)」においては、対
象の文章が1文(単位文)ずつ読み込まれ、また、1行
(単位行)ずつ割り付けられる。また、後者である「行
バッファ(6)」においては、後段の出力装置(9)に
伝送されるべき割り付け結果が、(1行単位をもって)
蓄積されることになる。第3の構成部としてのレジスタ
部に含まれるものは「状態変数レジスタ(4)」,「全
出力幅レジスタ(5)および最小出力幅レジスタ(1
0)」である。そして、第1のレジスタである「状態変
数レジスタ(4)」においては、行バッファ(6)の現
在の充満度を示す所定の値が蓄積される。第2のレジス
タである「全出力幅レジスタ(5)」においては、前記
行バッファ(6)の最大容量を示す所定の値が蓄積され
る。そして、第3のレジスタである「最小出力幅レジス
タ(10)」においては、行バッファ(6)の充満度の
最低目標値が蓄積されることになる。第4の構成部とし
ての改行評価部は「改行可否判定装置(7)」である。
この「改行可否判定装置(7)」においては、読み込ま
れた文章に関する解析結果、文字毎のフォントおよび各
レジスタ内の蓄積値に基づいて、当該文章のある所定の
位置における改行の可否(または改行の好適性)のいか
んに関する判定がなされる。そして、この判定の結果に
依存して対象とする文章の改行箇所が決定され、しかる
べき改行命令を発行するようにされる。第5の構成部と
しての解析部は「形態素解析装置(8)」である。この
「形態素解析装置(8)」においては、読み込まれた文
章について、所要の形態素解析が実行される。なお、こ
こでの第2の実施例に係る文書処理装置においては、正
しくない形態素解析結果も改行の可否判定のために合わ
せて用いられる。そして、第6の構成部としての出力部
は「出力装置(9)」である。この「出力装置(9)」
においては、対象とする文章に関する割り付け処理の結
果や、前段の行バッファ(6)側から伝送された内容が
出力される。
【0021】前述された本発明の第1実施例において
は、前記されたような出力がなされることから、図11
において例文11Aとして示されるような、[今日の会
場は日本/橋本町です。]なる文章の[本]と[橋]と
の間で改行されることがなくなり、前記図11に続く図
12において例文12Aとして示されるように、[今日
の会場は/日本橋本町です。]なる文章の[は]と
[日]との間で改行されることになる。かくして、著し
く誤解を誘発するような表示は巧みに避けられたことに
なる。
【0022】しかしながら、前記第1実施例の装置にお
いては、著しく誤解されやすい出力がなされることを回
避するために、形態素単位で一律に(即ち、機械的に)
改行するやり方が採用されている。ところで、前記第1
実施例の装置によれば、ある対象の文章における改行位
置を決めるときには、正しく形態素解析された結果の文
章の切れ目と該改行位置とが必ず一致するようにされる
だけであり、例えば、いずれかの出力行が短くなりすぎ
ることが生じるかどうかについては、何等の考慮も払わ
れていない。
【0023】しかるに、前記図12に例示された改行箇
所を有する文章のような場合には、形態素[日本橋]の
途中において(図13に例示されている)[日/本橋]
のように改行箇所が選定されたとしても、必ずしも誤解
しやすい出力になるとは限らないということができる。
この理由は、前記該当の改行箇所が、間違って形態素解
析された結果の切れ目とは一致していないことにある。
ここで、例えば「日本」/「橋本町」のように間違えて
形態素解析される要因としては以下のことが挙げられ
る。いま、次の形態素が存在するとする。即ち、 (1)「日本」という形態素は存在する。 (2)「橋本町」という形態素は存在する。 ここで、「日本/橋本町」なる改行がなされるとする
と、「日本」という文字列の塊と「橋本町」という別の
文字列の塊とが真っ先に(かつ同時に)目に入ってくる
のが通常であり、「日本/「橋」という文字列の塊と
「本町」という別の文字列の塊とが真っ先に(かつ同時
に)目に入ってくることは殆どあり得ないことである。
ところで、 1]「日本」という文字列の塊を一つの形態素と解釈し
ても違和感が生じることはない。また、 2]「橋本町」という別の文字列の塊についても一つの
形態素と解釈して違和感を生じることはない。このため
に、「日本」+「橋本町」と誤解してしまうことがある
(なお、ここで、「日本」と「橋本町」との間に切れ目
がないと即座に判断ないし推察をすることは無理もしく
は不可能なことであろう)。その一方、例えば図13に
おいて「日」+「本橋」と解釈することには違和感がと
もない、ここでの例文を読む者は「日」と「本橋」と間
には切れ目がないと即座に推察することができる。
【0024】本発明に係る上記第2実施例装置は前述の
事項に鑑みて構成されたものであり、その最終的な出力
行が短くなりすぎる場合に限り、「正しい形態素解析結
果での切れ目ではなくても、間違った解析結果での切れ
目でもない」ときには、形態素の途中においても改行を
行うことが許容されたものである。なお、ここでの出力
行が短すぎるかどうかを判断する際には、例えば、(標
準的な出力行として)予め設定された、ある所定の閾値
との対比をすることによってなされる。ただし、本発明
の最も重要な目的は「著しく誤解しやすい出力が生じる
ことを回避する」ことにあり、このために、例え出力行
の長さがある所定の閾値以下であっても、これを無視し
て改行することがあり得る。
【0025】本発明に係る第2の実施例装置の説明にお
いても、前述された第1の実施例装置の場合と同様に、
「...今日の会場は日本橋本町(にほんばし・ほんま
ち)です。...」なる文章を例として、この文章を具
体的にどのようにして出力するかの検討をする。この第
2の実施例装置においても、対象の文章が「形態素解析
装置(8)」によって形態素解析されるところまでは、
前述された第1の実施例装置の場合と全く同じである。
【0026】まず、「...今日の会場は日本橋本町
(にほんばし・ほんまち)です。...」なる前記の文
章は「文書ファイル(1)」に格納されている。なお、
この「文書ファイル(1)」には、ある所定の文字列
(c)と前記文字列の文字毎に対応する表示プロパティ
(例えば、文字毎に少なくともフォント(f)とサイズ
(s)とを含むもの)の並びとからなるデータが、ある
所定の文章として格納されている。この「文書ファイル
(1)」に格納されている文章は1文ずつ読み込まれて
いくことになる。そして、このようにして読み込まれた
文章に対応する文字列データ(c)は「形態素解析装置
(8)」によって所要の形態素解析がなされる。(前述
されたように、この段階までは本発明に係る第1の実施
例装置の場合と同じである。)
【0027】本発明に係る第2の実施例装置における形
態素解析は次のようにして実行される。即ち、 (1) まず、ある所定の形態素解析の結果として、幾
つかの形態素列が選定候補として得られる。 (2) このようにして得られた選定候補から、正しい
解析結果の形態素列が決定される。(なお、前記(1)
で得られた形態素列は、間違って形態素解析されたもの
も併せて保持されることになる)。
【0028】いま、前記された文例としての「今日の会
場は日本橋本町です。」なる文章部分が読み込まれると
すると、ここでは次のように解析された3個の形態素列
が得られる。即ち、 (1) 今日/の/会場/は/日本橋/本町/です。 (2) 今日/の/会場/は/日本/橋本町/です。 (3) 今日/の/会場/は/日本/橋本/町/です。
のように解析された3個の形態素列が得られることにな
る。
【0029】これに続けて、世界知識[人間世界におい
て約束事とされているような知識。例えば、「日本」と
いうような国名の直後に「橋本町」というような町名が
くることはないというような知識。]などを用いた解析
やユーザ指定[ある所定の情報については現に使用して
いる計算機には与えられておらず、例えば、「日本橋本
町」は「にほん・はしもとちょう」ではなく、「にほん
ばしほんまち」であるという情報が与えられていないと
きに、必要に応じて当該計算機のユーザに指定(入力)
をしてもらうことであり、幾つかの形態素列が得られた
ときに、いずれが正しいものであるかの指定が該ユーザ
によってなされることになる]などのやり方に従って、
形態素解析結果のいずれが正しいものであるかが決定さ
れる。この結果として判明されることは、前記3個の形
態素列の中で、「(1) 今日/の/会場/は/日本橋
/本町/です。」が正しい形態素列であるということで
ある。そして、このようにして得られた形態素解析結果
は、その改行位置を判定するために、「形態素解析装置
(8)」内に(誤りの解析結果をも含めて)保持される
(図14を参照:即ち、この図14においては、正しい
形態素列については[〇]が付されており、また、誤り
の形態素列については[×]が付された状態にされてい
る)。
【0030】本発明に係る第2の実施例装置において
は、判定に用いられるべきデータが、予め「改行可否判
定装置(7)」の所定のテーブルに保持されているもの
とする。このテーブルは「c−w テーブル(72)」
と呼ばれるものであり、各々の文字(c)について、そ
れぞれを出力する際の出力幅(w)と、ある所定の文字
の直後における改行の可否に関する評価(eval)と
を保持するようにされる。ここで、先に得た形態素解析
結果は次の手順で(eval)に書き込まれていく。即
ち(図15に示されているように)、 Step1:全ての欄を条件付改行可能コード(ここで
は[△])によって埋める。 Step2:間違って解析された形態素列のそれぞれに
対して、切れ目に当る文字の(eval)欄に改行禁止
コード(ここでは[×])を書き込む。 Step3:正しく解析された形態素列に対して、切れ
目に当る文字の(eval)欄に改行可能コード(ここ
では[○])を書き込む。 なお、書き込みには上書きも認められている。
【0031】その一方、w の値については、前記され
た本発明に係る第1の実施例装置の場合と同様に(c,
f,s)の各値が与えられると、「フォント格納装置
(2)」を参照することによって次のように得られる。
即ち、(w←w(c,f,s))のようにして得られ
る。なお、前記された(c,f,s)の各値は「文書フ
ァイル(1)」に格納されている。このようにして、所
期の「c−w テーブル(72)」が作成される(図1
6を参照)。
【0032】ここで「c−w テーブル(72)」が完
成すると、前記された本発明に係る第1の実施例装置の
場合と同様に、これに続けて所要の割り付け処理が実行
される。ここでの割り付け処理は、「行バッファ
(6)」が付属する「割り付け装置(3)」において1
行ずつ実行されるが、対象とする文章の改行位置をどこ
にするかは「改行可否判定装置(7)」が決定する事項
であり、ここでの決定に応じて所定の改行命令(CR)
を下すようにされる。本発明に係る第2の実施例装置に
よれば、この「改行可否判定装置(7)」においては、
前記の改行位置を決めるために4個の値が用いられる。
即ち、後述されるような4個の値[C,M,L,W]が
用いられる。 (1)C:「割り付け装置(3)」における現在割り付
け中のテキスト領域の「行バッファ(6)」の現在の状
態を表す値;この値は「状態変数レジスタ(4)」に格
納される;ここでは、「行バッファ(6)」を既に埋め
ている文字の幅を示す。 (2)M:「割り付け装置(3)」における現在割り付
け中のテキスト領域の「行バッファ(6)」の最大容量
幅を表す値;この値は「全出力幅レジスタ(5)」に格
納される;これは絶対的尺度である。 (3)L:「割り付け装置(3)」における現在割り付
け中のテキスト領域の「行バッファ(6)」の最小容量
幅を表す値;出力行が短すぎるか否かを判定するための
しきい値を表す値;ただし、これは絶対的尺度ではない
(例えば、他の尺度を優先させるために、容量幅がL未
満になることが容認されることもある;この値は「最小
出力幅レジスタ(10)」に格納される。 (4)W:割り付け対象である文字列を出力する際の全
出力幅;「c−w テーブル(72)」を参照すること
によって求めることができる。
【0033】ここでの改行の当否の判定は以下のように
して行われる。 if C+W ≦ M ..........(1) then 改行しない else if C>L ..........(2) then 改行する else なるべく形態素中で改行する
【0034】即ち、まず eval=○ である箇所を切
れ目とすることにより、前記された第1実施例装置の場
合と同様に、形態素単位での判定が行われる(1)。た
だし、「行バッファ(6)」が十分に埋まっていない場
合には、形態素中で改行できる箇所を探すようにされ
る。なお、形態素中で改行できる箇所がない場合には、
そのままの状態において改行を実行するようにされる
(2)。形態素中での改行については、eval=△
であり、しかも最も「行バッファ(6)」が埋まる箇所
で改行を実行するようにされる。即ち、次の条件を満た
す P が存在するときには、読み込まれた文章における
P 文字目において改行を実行する。
【数2】 これらを図示すると図17のようになることが認められ
る。この図17においては、eval が 〇 である文
字の直後(形態素の切れ目)での改行ができないことか
ら、△ の直後での改行をすることが考えられている。
そして、できるだけ多くの文字の割り付けができるよう
にされる(即ち、ここでは、できるだけ右側にある △
の直後で改行するようにされる)。また、この図17に
おいて、M は1行の最大容量を示し;Lは1行の充満
目標容量を示し;そして、Cはある現在の時点において
1行に割り付けられている容量を示している。この図1
7における一点鎖線から上では次のような局面が想定さ
れている。即ち、該当の行に対する割り付けが目標容量
に達していない(C<L)。次に続く形態素「たちつて
と」(容量 W)を割り付けると1行に収まらない(C
+W>M)。そこで、この図17における一点鎖線から
下では、前記形態素「たちつてと」の途中の文字(ev
al が △ である文字)の直後での改行をすることが
工夫される。いま、b で指されているものは形態素
「たちつてと」の先頭の文字「た」であり、また、n
で指されているものは該形態素「たちつてと」の最後尾
の文字「と」である。そして、p で指されているもの
は該当の行に割り付けられる最後の文字である。このよ
うな状態において、p を n から b まで移動させな
がら、eval が △ である文字「て」「つ」「た」
の順に、それぞれの直後で改行可能であるか否かのチェ
ックをしていく。この図17の例においては、文字
「つ」の直後での改行が可能であると判別されることか
ら、形態素「たちつてと」は、その中間の文字である
「つ」の直後で改行されることになる。なお、この文字
「つ」に続く文字「てと」は次に続く行に割り付けられ
ることになる。
【0035】次に、本発明に係る第2の実施例装置を動
作させる際の改行可否判定の手順について、図18のフ
ローチャートを参照しながら詳細に説明する。まず、前
記された本発明に係る第1の実施例装置と比較して認め
られることは、Step6からStep12までの部分
(図18において点線で包囲されている部分)が拡張部
分となっていることである。以下、各ステップの説明に
入っていく。 Step1:次に割り付けられる対象(の形態素)が文
中の何文字目から始まるのか(b)を初期設定する。 Step2:次に割り付けられる対象(の形態素)が文
中の何文字目までなのか(n)を求める。 Step3:割り付け対象(となった形態素)の出力幅
W を計算する。 Step4:「行バッファ(6)」におけるあふれの有
無を判定する。ここで、割り付け対象が「行バッファ
(6)」に収まることが可能であると判定されたら、こ
れを「行バッファ(6)」に収める(Step17に進
む)。 Step5:「行バッファ(6)」の充満度のいかんを
判定する。「行バッファ(6)」が充満しているときに
は改行を実行する(Step15に進む)。 Step6:判定位置(p)の初期設定を行う。 Step7:判定位置の更新を行う。 Step8:改行判定の終了のいかんをチェックする。
チェックの結果が終了であるならば改行を実行する(S
tep15に進む)。 Step9:解析結果の観点から改行禁止であるか否か
のチェックをする。改行禁止であるときには、判定位置
の更新を実行する(Step7に戻る)。 Step10:バッファのあふれの観点から改行が可能
であるか否かのチェックをする。まだあふれが生じてい
るときには、判定位置の更新を実行する(Step7に
戻る)。 Step11:改行前に割り付ける文字列を「行バッフ
ァ(6)」に送る。 Step12:(改行後に割り付ける文字列を「行バッ
ファ(6)」に伝送するために)割り付け対象の更新を
実行する。 Step13:ある所定の改行命令を「割り付け装置
(3)」に伝送する。 Step14:「行バッファ(6)」をクリアする(状
態変数を更新する)。 Step15:割り付け対象としての文字列を「行バッ
ファ(6)」に伝送する。 Step16:「行バッファ(6)」の更新を実行する
(状態変数を更新する)。 Step17:対象とする文章が終りであるか否かの判
定をする。対象とする文章が終りであるときには、EN
D に進んで、これに次続する文章の処理に移行する。 Step18:割り付け対象を更新してから元のSte
p2に戻る。
【0036】ここで、先にも例示された「今日の会場は
日本橋本町です。」なる文章を対象として、その文を割
り付け作業について説明する。なお、ここでは次の場面
を想定するものとされている。 C=11100;L=18000;M=20000。 Step1,2,3:まず、「今日」なる形態素が割り
付け対象とされる(ここで、b=1;n=2;W=20
00:図19を参照)。 Step4:ここでは、C+W≦M が成立して Ste
p15 に移行する。(図20において、C=1110
0;W=2000;M=20000 である)。 Step15:ここでは、前記「今日」なる形態素が
「割り付け装置(3)」に付属の「行バッファ(6)」
に伝送される。 Step16,17,18,2,3:前記「今日」に続
く「の」なる形態素が割り付け対象となる(b=3;n
=3;W=1000;C=13100)。
【0037】以下同様にして、「会場」および「は」な
る形態素の処理が順次実行される。これに続けて、「日
本橋」なる形態素が割り付け対象となる場面を迎える。 Step16,17,18,2,3:「日本橋」なる形
態素が割り付け対象となる(b=7;n=9;W=30
00;C=17100)。 Step4:C+W≦M は成立しない。Step5へ
と移行する(C=17100;W=3000;M=20
000) Step5:C≧L は成立しない。Step6へと移
行する(C=17100;L=18000:図21を参
照)。 Step6:p=9 になる。 Step7,8:p<b は成立しない。Step9へ
と移行する(W=2000;p=8;b=7)。 Step9: eval(p)=[×]は成立する。S
tep7へと移行する。 Step7,8,9:W=1000;p=7;b=7;
eval(7)=[△]。Step10へと移行する
(図22を参照)。 Step10:C+W≦M が成立する。Step11
へと移行する(C=17100;W=1000;M=2
0000)。 Step11:「日」なる形態素が「割り付け装置
(3)」に付属の「行バッファ(6)」に伝送される。 Step12:b=8;W=2000。ここで、「本
橋」が割り付け対象として残る(図23を参照)。 Step13,14:「割り付け装置(3)」に対して
所定の改行命令が伝送される。そして、C=0 にされ
る(「日」までが割り付けられ、「行バッファ(6)」
はクリアされることになる)。 Step15:「本橋」が「割り付け装置(3)」に付
属の「行バッファ(6)」に伝送される(図24を参
照)。
【0038】以下、同様な処理が流れることになる。そ
して、「行バッファ(6)」の内容が埋められた「割り
付け装置(3)」では、所定の改行命令が与えられた時
点において、必要に応じてジャスティファイイングやセ
ンタリングのような調整作業が実行される。そして、得
られた割り付け結果を「出力装置(9)」に渡し、「行
バッファ(6)」をクリアするようにされる。最後に、
この「出力装置(9)」においては、受け取った割り付
け結果を出力するようにされる。
【0039】なお、本発明に係る文書処理装置の動作に
は、[「行バッファ(6)」に後どれだけの幅の割り付
けができるか]という残り幅情報から判定する場合も含
まれているが、ここでの第2の実施例においては、前記
された情報 C について、「今どれだけの幅の割り付け
を行ったか」を示す情報として用いることにより、対象
とする文章について改行可否を判定する場合について説
明した。
【0040】図25は、本発明の第3の実施例に係る文
書処理装置の構成を示すブロック図である。この図25
において、第1の構成部としての格納部に含まれるもの
は「文書ファイル(1)」および「フォント格納装置
(2)」である。そして、前者である「文書ファイル
(1)」には、ある所定の文章について、当該文章を構
成する文字列と各文字に対応する表示プロパティの並び
として(文章の)格納がなされている。なお、ここでの
表示プロパティとしては、少なくとも文字毎のフォント
およびサイズを指定するものがある。また、後者である
「フォント格納装置(2)」には、例えば[12ポイン
トの明朝体の「あ」]のような、文字毎のフォントが格
納されている。次に、第2の構成部としての割り付け部
に含まれるものは「割り付け装置(3)」および「行バ
ッファ(6)」である。前者である「割り付け装置
(3)」においては、対象の文章が1文(単位文)ずつ
読み込まれ、また、1行(単位行)ずつ割り付けられ
る。そして、後者である「行バッファ(6)」において
は、後段の「出力装置(9)」に伝送されるべき割り付
け結果が、(1行単位をもって)蓄積される。次に、第
3の構成部としてのレジスタ部に含まれるものは、「状
態変数レジスタ(4)」,「全出力幅レジスタ(5)」
および「割り付け対象レジスタ(13)」である。そし
て、第1のレジスタである「状態変数レジスタ(4)」
においては、行バッファ(6)の現在の充満度を示す所
定の値が蓄積される。第2のレジスタである「全出力幅
レジスタ(5)」においては、前記行バッファ(6)の
最大容量を示す所定の値が蓄積される。そして、第3の
レジスタである「割り付け対象レジスタ(13)」にお
いては、ある所定の句(例えば「花子のお兄さん」)を
同じ1行以内に出力するもの(即ち、割り付け対象)と
して処理を施すときの、該当の句に対する最大許容出力
幅を示す値が蓄積される。第4の構成部としての改行評
価部は「改行可否判定装置(7)」である。この「改行
可否判定装置(7)」においては、読み込まれた文章に
関する(意味的な解析を含む)解析結果、文字毎のフォ
ントおよび各レジスタ内の蓄積値に基づいて、当該文章
のある所定の位置における改行の可否(または改行の好
ましさ)のいかんに関する判定がなされる。そして、こ
の判定の結果に依存して対象とする文章の改行箇所が決
定され、しかるべき改行命令を発行するようにされる。
第5の構成部としての解析部は、「形態素解析装置
(8)」,「構文解析装置(11)」および「意味解析
装置(12)」である。第1の解析装置である「形態素
解析装置(8)」においては、読み込まれた文章につい
て、所要の形態素解析が実行される。第2の解析装置で
ある「構文解析装置(11)」においては、対象の文章
に関する構文解析結果として考えられるだけの構文解析
木を全て求めてから、正しい構文解析結果を1つだけ決
めるようにされる。そして、第3の解析装置である「意
味解析装置(12)」は、上記の構文解析において考え
られる全ての解析木から1つの正しい解析木を決める際
に用いられる。このときには、正しくない解析木におい
て意味的に反対な語同士が係り受けになる等の、文章の
読者を混乱させる語句の有無をチェックするようにされ
る。そして、第6の構成部としての出力部は「出力装置
(9)」である。この「出力装置(9)」においては、
対象とする文章に関する割り付け処理の結果や、前段の
行バッファ(6)側から伝送された内容が出力される。
【0041】上記第3の実施例装置は以下のように動作
する。即ち、まず「割り付け装置(3)」においては、
「文書ファイル(1)」に格納されている文章を対象と
して、1文(ある所定の単位長の文)ずつ読み込まれ
る。そして、このように読み込まれた文章は、1行分ず
つ「行バッファ(6)」に格納される。このとき、前記
対象とする文章の改行箇所については、「改行可否判定
装置(7)」によって決定され、この決定に基づく所定
の改行命令(CR)が発行される。この改行命令を受け
取った「割り付け装置(3)」においては、「行バッフ
ァ(6)」の内容をクリアしながら「出力装置(9)」
に伝送するようにされる。
【0042】上記第3の実施例装置においては、図26
における例文26Aのような「...男らしい花子の姉
のBF...」なる文章に関連して説明する。このよう
な文章例にあっても、従来からのやり方によるときに
は、この図26のように[男らしい花子]と[姉]との
間が改行位置として選択されると、この文章例を読む者
によっては、[花子が男らしい(?)]かのように解釈
することが生じて、その思考の過程に混乱が起きてしま
うことがあり得る。
【0043】上記第3の実施例装置においては、前述の
ような混乱が生じる恐れを除く工夫がなされており、図
27に示されているようにその解決が図られている。即
ち、この図27における例文27Aは、「男らしい」な
る文節が「花子」や「(花子の)姉」のような[性を異
にする単語]に係るのではなく、「男らしい」なる文節
と「花子の姉」なる文節の双方が「BF」に係る」とい
う解析結果が利用されている。このために、「花子の姉
のBF」なる文節が同一の行に出力するような割り付け
処理(即ち、「花子の姉のBF」なる文節全体が単一の
割り付け対象にされる)を行うことにより、前述された
思考停止のような混乱が生じる恐れが除かれている。
【0044】次に、前記図26または図27で示された
「...男らしい花子の姉のBF...」なる文章例に
ついて、その出力のさせ方を具体的に説明する。この第
3の実施例装置においても、対象の文章が「形態素解析
装置(7)」によって形態素解析が行われ、m−W テ
ーブル(71)の該当欄が埋められるまでは、前述され
た第1の実施例装置の場合と同様である。
【0045】所要の形態素解析が終了すると、これに続
けて「構文解析装置(11)」による構文解析が実行さ
れる。ここで例えば前記された文章例の中の「男らしい
花子の姉のBF」なる文節における名詞句の部分につい
てみると、この名詞句の部分からは図28のようにして
所期の候補が得られる。しかる後に、意味解析、格の知
識やユーザの指定等に基づき、前記のように得られた候
補の中から正しい構文解析木(A)が得られることにな
る。
【0046】上記第3の実施例装置においては、「意味
解析装置(12)」による意味解析の結果を用いること
により、前記図28における構文解析木(B)および構
文解析木(C)は正しくないものと判断されている。こ
こでそれぞれの構文解析木について検討すると、まず構
文解析木(A)の場合には、意味属性が♂である「男ら
しい」が、意味属性が同じく♂である「BF」に係るよ
うにされている。これに対して、構文解析木(B)の場
合には、意味属性が♂である「男らしい」が、意味属性
が♀である「花子」に係るという解釈が出てくることに
なる。また、構文解析木(C)の場合にも、意味属性が
♂である「男らしい」が意味属性が♀である「姉」に係
るという解釈が出てくることになる。かくして、構文解
析木(A)は正しいものであり、構文解析木(B)およ
び構文解析木(C)はいずれも正しくないことになる。
【0047】そこで、前記の文章を読む者が上記と同様
な判断をし易くするために、例えば構文解析木(B)の
場合においては、「花子」なる単語から「BF」(BF
は「男らしい」の真の係り先)なる単語までの「花子の
姉のBF」なる一塊の文節が同一の行に出力されるよう
な割り付け処理がなされる。
【0048】上記のような処理を可能にするために、本
発明に係る第3の実施例装置においては、次のような
(1次)拡張 m−W テーブル(73)(図29を参
照)が導入される。ここでの(1次)拡張m−Wテーブ
ル(73)は、(前記図4および図5で参照される)m
−W テーブル(71)にある m,i1,i2,W な
る3個の要素に加えて、次のような3個の要素 eva
l,S,p の記載欄が追加されている。ここで、 eval:その形態素の直後で改行してもよいかどうか
の評価を記す要素; p:その形態素から1行に出力したい範囲を、末尾の形
態素へのポインタで記す要素; S:上記範囲の文字列の幅を記す要素;にされている。
そして、ここでの p 欄および S 欄は、構文解析や意
味解析等の処理結果に基づき、必要に応じて埋められる
ものである。
【0049】ここで、前記図28における構文解析木
(B)を例にとってみると、「花子の姉のBF」なる文
節を1行に出力・表示させるためには次のような作業が
なされる。即ち、 1.図28における構文解析木(A)から、「男らし
い」なる単語の真の係り先が「BF」なる単語であるこ
とが認められる。 2.そこで、「花子」なる単語の p 欄に、「BF」な
る単語に至るポインタ(図29における矢印(73A)
を参照)が記載される。 3.「花子」なる単語から「BF」なる単語までの W
が合計されて、「花子」なる単語の S 欄に合計値(6
200)が記載される。というような手順をもって該当
欄への埋め込み作業がなされる。
【0050】前記と同様にして、図28における構文解
析木(C)を例にとってみると、「姉のBF」なる文節
を1行に出力・表示させるためには次のような作業がな
される。即ち、 1. 図28における構文解析木(A)から、「男らし
い」なる単語の真の係り先が「BF」なる単語であるこ
とが認められる。 2.そこで、「姉」なる単語の p 欄に、「BF」なる
単語に至るポインタ(図29における矢印(73B)を
参照)が記載される。 3.「姉」なる単語から「BF」なる単語までの W が
合計されて、「花子」なる単語の S 欄に合計値(32
00)が記載される。というような手順をもって該当欄
への埋め込み作業がなされる。
【0051】上記されたような作業の結果として、図2
9に示されているような(1次)拡張 m−W テーブル
は、図30に示されているような(2次)拡張 m−W
テーブルにされる。なお、この図30においては ev
al 欄が埋められた状態のものが示されているが、こ
こでの eval を求めるためには「改行可否判定装置
(7)」において次のような値が用いられる。 F:1行への出力を所望するときの句(または文節等)
の出力時における許容最大幅を示す値(極端に長い句や
文節の1行への出力を防止するため);なお、この値は
予め「割付対象レジスタ(13)」に格納されることに
なる。
【0052】ここで、eval は次のような手順をも
って求められる。 [1]:全ての形態素の eval 欄を[○]にする。 [2]:構文解析木の根から1番深いレベルにある句
(文節等)から、該構文解析木の根に向かって順に p
を見ていく(同じレベルの句が複数あるときは前のもの
から順に p を見ていく。また、ある一つの句中では前
にある形態素から順に p を見ていく)。 if: p のポインタの先が現在 p を見ている句の
範囲にあり、かつ、pに記載された合計値が F 以下で
ある; then:ポインタの先を除く後の全 eval 欄に対
して[△]が埋められる; p 欄に記載されたポインタが削除される。(ここで、
p を見る形態素が前記削除したポインタの先になるよ
うにされる。)
【0053】例えば、図29の場合は次のようになる。
即ち、 [1]:全ての形態素の eval 欄を[○]にする。 [2]:以下のループ処理を行う。 [1度目のループ]まず根から1番深いところで「花子
の姉」に着目する。「花子」の p を見る。ポインタは
着目範囲外の「BF」を指しているために、if は不
成立である。「の」の p を見る。p は空欄なので
スキップする。「姉」の p を見る。ここでのポインタ
も着目範囲外の「BF」を指しており、if は不成立
である。 [2度目のループ]続いて次に根から深いところの「花
子の姉のBF」に着目する。「花子」の p を見る。ポ
インタは着目範囲内の「BF」を指しているために、i
f は成立である。「花子」,「の」,「姉」,「の」
の eval 欄を[△]にする。「花子」,「の」,
「姉」,「の」の p 欄をブランクにする。「BF」の
p 欄を見る。該当の p 欄がブランクであることから
スキップする。 [3度目のループ]最後に、1番根に近いところの「男
らしい花子の姉のBF」に着目する。「男らしい」,
「花子」,「の」,「姉」,「の」,「BF」の順序で
p を見ていく。p 欄がブランクであることから、全
てをスキップする。
【0054】ここで、図30のように(2次)拡張m−
Wテーブルが完成すると、これに続けて、eval 欄
における値を考慮しながら割り付け処理を行う。ところ
で、この第3の実施例においては、割り付け処理および
それに続く出力処理を、前記第1の実施例で示したと同
様な手順に帰着させることにする。そこで、図30に示
された(2次)拡張m−Wテーブル(T1と呼ぶ)か
ら、第1の実施例で示したm−Wテーブル(図4または
図5を参照)と等価なテーブル(図31を参照:T2と
呼ぶ)を作成する手順を示すことにする。さて、前記第
1の実施例においては、割り付け対象は常に1個の形態
素であったが、この第3の実施例において句(複数の形
態素列)となる場合もある。ここでは、前記の(図31
における)テーブル T2 は以下の4要素からなる記載
欄を持ったものとされる。即ち、 m’:割り付け対象(句または形態素); i1:その割り付け対象は文の何番目の文字からなの
か; i2:その割り付け対象は文の何番目の文字までなの
か; W’:その割り付け対象を出力する際の出力幅はいくら
なのか;なる記載欄を持ったテーブルであるとされる。
【0055】ここで、テーブル T1 からテーブル T
2 を作成する手順は以下の通りである。即ち、 [1]:(図30における)テーブル T1 を上の欄か
ら下の欄まで順に見ていく。 [2]:テーブル T1 の i1 を(図31における)
テーブル T2 の i1 に書き込む。 [3]:if eval=[○], then T1 の W,m,i2 を T2 の W’,m,i2 に書き込む。 else(eval=[△]), T1 の S を T2 の W’ に書き込む。 [4]:T1 を eval=[○]となるまで下に見て
いきながら、それぞれの m を T2 の m’ に書き足
していく。 [5]:T1 の eval=[○]となった欄の i2
を T2 の i2 に書き込む。(T1,T2 とも次の
欄に着目する。)
【0056】例えば、図30に基づいて図31を作成す
るには次のような作業がなされる。 [1]:まず、T1 における「男らしい」を見る。 [2]:T1 の該当する i1 が 1 であることか
ら、T2 の該当する i1に 1 を書き込む。 [3]:該当する eval=[○]であることから、
T1 の W,m,i2を、そのままの状態で T2 の
W’,m,i2 に書き込む。 [4]:T1 における「花子」を見る。 [5]:前記 T1 の該当する i1 が 5 であること
から、T2 の該当する i1 に 5 を書き込む。 [6]:該当する eval=[△]であることから下
記の操作を行う。 [7]:T1 における S欄の値が 6200 であるこ
とから、T2 における W’ 欄に 6200 なる値を
書き込む。 [8]:T1を下に見ていくと、eval=[○]にな
るのは「BF」のときであるから、該当の m’ 欄には
「花子の姉のBF」を書き込む。 [9]:T1 における(「BF」の) i2 欄の値が
11 であることから、T2 における i2 欄に 11
なる値を書き込む。 [10]:以上の手順で図30における(2次)拡張m
−Wテーブルを変形すると、図31に示されているよう
なテーブルが作成されることになる。そして、これから
後は、前記第1の実施例と全く同様な割り付け処理が行
われて、最後に出力処理が行われる。
【0057】
【発明の効果】以上説明されたように、この発明に係る
文書処理装置によれば、ある対象の文章を出力・表示さ
せるときに、構造的に結び付きの強い文字列を同じ行に
表示することによって、誤った読解を的確に回避させる
ことが可能になるという著しい効果が奏せられる。即
ち、この発明に係る実施例の文書処理装置によれば、実
際に割り付けるべき文字列の幅をそのフォント、サイズ
を含む形式で算出して、前記算出された幅と文字列割り
付けの領域の幅とについて所定の評価を施すことによっ
て当該文字列における改行箇所を決定することができ
る。また、この発明に係る別の実施例の文書処理装置に
よれば、ある所定の形態素に対応する位置で改行すると
一行に割り付けられる文字列の幅が所定の閾値を満たさ
ないときに、予め設定された改行位置の好適性に関する
情報に基づいて、該当の形態素に対応する位置以外の位
置での改行が許容されるという利点がある。そして、こ
の発明に係る更に別の実施例の文書処理装置によれば、
出力すべき文字列について所要の構文解析および意味解
析を行い、特に意味的に関連が深い文字列部位が同一行
に出力される位置が改行位置として選択される効果もも
たらされる。
【図面の簡単な説明】
【図1】 本発明に係る第1の実施例装置の概略構成図
である。
【図2】 上記第1の実施例において適用される例文の
表示図である。
【図3】 上記第1の実施例において適用される例文の
表示図である。
【図4】 上記第1の実施例において適用される m−
W テーブルの例示図である。
【図5】 上記第1の実施例において適用される m−
W テーブルの例示図である。
【図6】 上記第1の実施例において用いられる所定の
値 G,M の関連例示図である。
【図7】 上記第1の実施例における改行可否判定の動
作に関する説明のためのフローチャートである。
【図8】 上記第1の実施例において、ある所定の形態
素が行バッファに収まるか否かを判定するための説明図
である。
【図9】 上記第1の実施例において、ある所定の形態
素の割り付けが単一行内で可能であるか否かを判定する
ための説明図である。
【図10】 本発明に係る第2の実施例装置の概略構成
図である。
【図11】 上記第2の実施例に関連して適用される例
文の表示図である。
【図12】 上記第2の実施例に関連して適用される例
文の表示図である。
【図13】 上記第2の実施例に関連して適用される例
文の表示図である。
【図14】 上記第2の実施例において、形態素解析の
結果を誤りのものも正しいものに合わせて保持される態
様の例示図である。
【図15】 上記第2の実施例において、eval を
求める態様を説明するための例示図である。
【図16】 上記第2の実施例における、完成した c
−W テーブルの例示図である。
【図17】 上記第2の実施例における、所定の改行
(可否)判定手順に関する説明図である。
【図18】 上記第2の実施例において改行(可否)判
定の動作に関する説明のためのフローチャートである。
【図19】 上記第2の実施例において、ある所定の形
態素を割り付ける際の説明図である。
【図20】 上記第2の実施例において、ある所定の形
態素が行バッファに収まるか否かを判定するための説明
図である。
【図21】 上記第2の実施例において、ある所定の形
態素の割り付けが単一行内で可能であるか否かを判定す
るための説明図である。
【図22】 上記第2の実施例において、ある所定の形
態素中の改行位置を探索する動作の説明図である。
【図23】 上記第2の実施例において、ある所定の形
態素中の改行位置を決定することに関する説明図であ
る。
【図24】 上記第2の実施例において、改行の動作に
関連した説明図である。
【図25】 本発明に係る第3の実施例装置の概略構成
図である。
【図26】 上記第3の実施例において適用される例文
の表示図である。
【図27】 上記第3の実施例において適用される例文
の表示図である。
【図28】 上記第3の実施例において適用される構文
解析結果の例示図である。
【図29】 上記第3の実施例において適用される(1
次)拡張 m−W テーブルの例示図である。
【図30】 上記第3の実施例において適用される(2
次)拡張 m−W テーブルの例示図である。
【図31】 前記図30の(2次)拡張 m−W テーブ
ルから導出される、上記第1の実施例におけると等価の
m−W テーブルの例示図である。
【図32】 従来のこの種の技術を説明するために用い
られる例文の表示図である。
【図33】 従来のこの種の技術を説明するために用い
られる例文の表示図である。
【符号の説明】
1 −− 文章ファイル;2 −− フォント格納装置;3
−− 割り付け装置;4 −− 状態変数レジスタ;5
−− 全出力幅レジスタ;6 −− 行バッファ;7 −−
改行可否判定装置;71 −− m−W テーブル;8
−− 形態素解析装置;9 −− 出力装置。

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】所定の文字列を対象とする割り付け可能領
    域の幅と、実際に文字列が割り付けられた領域の幅とを
    評価することにより、該所定の文字列における改行箇所
    を決定する機構を備えてなる文書処理装置であって、 出力すべき文字列について形態素解析を行うことにより
    該文字列を構成する形態素列を求める機構と、 出力すべき文字列を構文分析し、形態素列の中の各形態
    素を葉として有する第1の構文解析木と、該形態素列の
    中の各形態素を葉として有する第2の構文解析木とを求
    める機構と、 出力すべき文字列を意味解析して、該形態素列の中の各
    形態素の意味属性を求める機構と、 ある所定の評価に基づいて、適切な幅の文字列が同一行
    に出力可能になるように、ある所定の文字列の直後にお
    ける改行位置の好適性を求める機構と、 現在割り付け中の割り付け領域における割り付け方向の
    幅を保持する機構と、 前記改行位置の好適性と割り付け方向の幅とに関する所
    定の評価に基づき、形態素的にまたは意味的に関連が深
    く、その出力時に一行中で占有される文字列の長さが好
    適であるような改行箇所を決定する機構とを備えてな
    り、 出力すべき文字列について所要の構文解析および意味解
    析を行い、特に意味的に関連が深い文字列部位が同一行
    に出力される位置が改行位置として選択されることを特
    徴とする文書処理装置。
JP2001305858A 2001-10-01 2001-10-01 文書処理装置 Pending JP2002163250A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001305858A JP2002163250A (ja) 2001-10-01 2001-10-01 文書処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001305858A JP2002163250A (ja) 2001-10-01 2001-10-01 文書処理装置

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP11923693A Division JP3477739B2 (ja) 1993-04-23 1993-04-23 文書処理装置

Publications (1)

Publication Number Publication Date
JP2002163250A true JP2002163250A (ja) 2002-06-07

Family

ID=19125583

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001305858A Pending JP2002163250A (ja) 2001-10-01 2001-10-01 文書処理装置

Country Status (1)

Country Link
JP (1) JP2002163250A (ja)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008021115A (ja) * 2006-07-12 2008-01-31 Sharp Corp 文書処理装置、そのプログラムおよび該プログラムを記録したコンピュータ読取り可能な記録媒体、電子表示器、ならびに文書処理方法
US7707496B1 (en) 2002-05-09 2010-04-27 Microsoft Corporation Method, system, and apparatus for converting dates between calendars and languages based upon semantically labeled strings
US7707024B2 (en) 2002-05-23 2010-04-27 Microsoft Corporation Method, system, and apparatus for converting currency values based upon semantically labeled strings
US7712024B2 (en) 2000-06-06 2010-05-04 Microsoft Corporation Application program interfaces for semantically labeling strings and providing actions based on semantically labeled strings
US7711550B1 (en) 2003-04-29 2010-05-04 Microsoft Corporation Methods and system for recognizing names in a computer-generated document and for providing helpful actions associated with recognized names
US7716676B2 (en) 2002-06-25 2010-05-11 Microsoft Corporation System and method for issuing a message to a program
US7716163B2 (en) 2000-06-06 2010-05-11 Microsoft Corporation Method and system for defining semantic categories and actions
US7739588B2 (en) 2003-06-27 2010-06-15 Microsoft Corporation Leveraging markup language data for semantically labeling text strings and data and for providing actions based on semantically labeled text strings and data
US7742048B1 (en) 2002-05-23 2010-06-22 Microsoft Corporation Method, system, and apparatus for converting numbers based upon semantically labeled strings
US7778816B2 (en) 2001-04-24 2010-08-17 Microsoft Corporation Method and system for applying input mode bias
US7783614B2 (en) 2003-02-13 2010-08-24 Microsoft Corporation Linking elements of a document to corresponding fields, queries and/or procedures in a database
US7788602B2 (en) 2000-06-06 2010-08-31 Microsoft Corporation Method and system for providing restricted actions for recognized semantic categories
US7788590B2 (en) 2005-09-26 2010-08-31 Microsoft Corporation Lightweight reference user interface
US7827546B1 (en) 2002-06-05 2010-11-02 Microsoft Corporation Mechanism for downloading software components from a remote source for use by a local software application
US7992085B2 (en) 2005-09-26 2011-08-02 Microsoft Corporation Lightweight reference user interface
US8620938B2 (en) 2002-06-28 2013-12-31 Microsoft Corporation Method, system, and apparatus for routing a query to one or more providers
US8706708B2 (en) 2002-06-06 2014-04-22 Microsoft Corporation Providing contextually sensitive tools and help content in computer-generated documents

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04167049A (ja) * 1990-10-31 1992-06-15 Fuji Xerox Co Ltd 文書処理装置
JPH04180156A (ja) * 1990-11-15 1992-06-26 Fuji Xerox Co Ltd 文書処理装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04167049A (ja) * 1990-10-31 1992-06-15 Fuji Xerox Co Ltd 文書処理装置
JPH04180156A (ja) * 1990-11-15 1992-06-26 Fuji Xerox Co Ltd 文書処理装置

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7712024B2 (en) 2000-06-06 2010-05-04 Microsoft Corporation Application program interfaces for semantically labeling strings and providing actions based on semantically labeled strings
US7716163B2 (en) 2000-06-06 2010-05-11 Microsoft Corporation Method and system for defining semantic categories and actions
US7788602B2 (en) 2000-06-06 2010-08-31 Microsoft Corporation Method and system for providing restricted actions for recognized semantic categories
US7778816B2 (en) 2001-04-24 2010-08-17 Microsoft Corporation Method and system for applying input mode bias
US7707496B1 (en) 2002-05-09 2010-04-27 Microsoft Corporation Method, system, and apparatus for converting dates between calendars and languages based upon semantically labeled strings
US7707024B2 (en) 2002-05-23 2010-04-27 Microsoft Corporation Method, system, and apparatus for converting currency values based upon semantically labeled strings
US7742048B1 (en) 2002-05-23 2010-06-22 Microsoft Corporation Method, system, and apparatus for converting numbers based upon semantically labeled strings
US7827546B1 (en) 2002-06-05 2010-11-02 Microsoft Corporation Mechanism for downloading software components from a remote source for use by a local software application
US8706708B2 (en) 2002-06-06 2014-04-22 Microsoft Corporation Providing contextually sensitive tools and help content in computer-generated documents
US7716676B2 (en) 2002-06-25 2010-05-11 Microsoft Corporation System and method for issuing a message to a program
US8620938B2 (en) 2002-06-28 2013-12-31 Microsoft Corporation Method, system, and apparatus for routing a query to one or more providers
US7783614B2 (en) 2003-02-13 2010-08-24 Microsoft Corporation Linking elements of a document to corresponding fields, queries and/or procedures in a database
US7711550B1 (en) 2003-04-29 2010-05-04 Microsoft Corporation Methods and system for recognizing names in a computer-generated document and for providing helpful actions associated with recognized names
US7739588B2 (en) 2003-06-27 2010-06-15 Microsoft Corporation Leveraging markup language data for semantically labeling text strings and data and for providing actions based on semantically labeled text strings and data
US7788590B2 (en) 2005-09-26 2010-08-31 Microsoft Corporation Lightweight reference user interface
US7992085B2 (en) 2005-09-26 2011-08-02 Microsoft Corporation Lightweight reference user interface
JP2008021115A (ja) * 2006-07-12 2008-01-31 Sharp Corp 文書処理装置、そのプログラムおよび該プログラムを記録したコンピュータ読取り可能な記録媒体、電子表示器、ならびに文書処理方法

Similar Documents

Publication Publication Date Title
JP2002163250A (ja) 文書処理装置
US5907821A (en) Method of computer-based automatic extraction of translation pairs of words from a bilingual text
US9411788B2 (en) Methods and apparatus for improved navigation among controlled terms in one or more user documents
US5680628A (en) Method and apparatus for automated search and retrieval process
US5826219A (en) Machine translation apparatus
US5418718A (en) Method for providing linguistic functions of English text in a mixed document of single-byte characters and double-byte characters
US20060149557A1 (en) Sentence displaying method, information processing system, and program product
US20030101044A1 (en) Word, expression, and sentence translation management tool
JP2002215617A (ja) 品詞タグ付けをする方法
US10140260B2 (en) Intelligent text reduction for graphical interface elements
US10503808B2 (en) Time user interface with intelligent text reduction
US6029123A (en) Natural language processing system and method for expecting natural language information to be processed and for executing the processing based on the expected information
JP6623840B2 (ja) 同義語検出装置、同義語検出方法及び同義語検出用コンピュータプログラム
JP2008077615A (ja) 情報表示制御装置及び情報表示制御プログラム
JP3477739B2 (ja) 文書処理装置
JP2004213309A (ja) 情報表示制御装置及びプログラム
JP2021140282A (ja) 英文の特許明細書からの格成分抽出プログラム
US5640581A (en) CD-ROM information editing apparatus
JPH05151261A (ja) 時制推敲支援システム
KR20160033641A (ko) 소번역메모리를 포함하는 번역 메모리, 그를 이용한 역방향 번역메모리 및 이들을 기록한 컴퓨터 판독가능한 저장매체
Johns Viewing the sunrise: iPac 2.0 accessibility
JPS62245366A (ja) 文書処理装置
JP3061855B2 (ja) かな漢字変換装置及びかな漢字変換方法
JP3873299B2 (ja) 仮名漢字変換装置および仮名漢字変換方法
JP3700193B2 (ja) 仮名漢字変換装置および仮名漢字変換方法

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20040204

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040302

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040506

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20060418