JP2023072321A - Document proofreading support device, document proofreading support method, and document proofreading support program - Google Patents
Document proofreading support device, document proofreading support method, and document proofreading support program Download PDFInfo
- Publication number
- JP2023072321A JP2023072321A JP2021184785A JP2021184785A JP2023072321A JP 2023072321 A JP2023072321 A JP 2023072321A JP 2021184785 A JP2021184785 A JP 2021184785A JP 2021184785 A JP2021184785 A JP 2021184785A JP 2023072321 A JP2023072321 A JP 2023072321A
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- document
- unknown
- processing unit
- unknown sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000001915 proofreading effect Effects 0.000 title claims abstract description 134
- 238000000034 method Methods 0.000 title claims abstract description 55
- 238000012545 processing Methods 0.000 claims abstract description 92
- 239000013598 vector Substances 0.000 claims description 24
- 230000006870 function Effects 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 description 16
- 239000000470 constituent Substances 0.000 description 10
- 238000012937 correction Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000005484 gravity Effects 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
Images
Abstract
Description
本発明は、文書校正支援装置、文書校正支援方法及び文書校正支援プログラムに関する。 The present invention relates to a document proofreading support device, a document proofreading support method, and a document proofreading support program.
企業においては、日常的に多種多量の文書が作成される。しかしながら、文書作成者は、文書を見直す時間を充分に確保できない場合が多い。さらに、業務用の文書は、専門的な内容を正確に伝える語法に適っている必要がある。近時、コンピュータがこのような見直しを行うことが一般化している。 In companies, a large number of documents of various kinds are created on a daily basis. However, document creators often do not have enough time to review the document. In addition, business documents should be written in a language that accurately conveys the technical content. In recent years, it has become common for a computer to perform such a review.
特許文献1の文書校正支援装置は、所定のルールに合致しない不適切な記載箇所を文書から抽出し、それを修正するために要する予想修正時間を算出し、不適切な記載箇所及びその予想修正時間を出力する。当該文書校正支援装置は、ユーザが指定する修正時間を予想修正時間と比較する。予想修正時間の方が短い場合、当該文書校正支援装置は、すべての不適切な記載箇所を修正の対象とする。逆に、予想修正時間の方が長い場合、当該文書校正支援装置は、不適切な記載箇所のうち重要度が高いもののみを修正の対象とする。
The document proofreading support device disclosed in
校正前の原稿は、誤字、脱字、表記揺れ等の文法的又は型式的な間違いだけではなく、意味的な間違いを含む場合がある。特許文献1のルールは、文法的又は型式的な間違いを検知するためのものである。意味的な間違いが潜在的に存在する箇所をユーザに知らせるには、別途方策が必要であった。
そこで、本願は、文書内において、意味的な間違いが潜在的に存在する箇所を検知することを目的とする。
Manuscripts before proofreading may contain not only grammatical or formal errors such as spelling errors, omissions, and spelling inconsistencies, but also semantic errors. The rules of
Accordingly, an object of the present application is to detect a place where a semantic error potentially exists in a document.
本発明の文書校正支援装置は、文書に含まれるセンテンスが所定のルールに一致するか否かにより、前記センテンスが意味的な間違いを含み得る未知センテンスであるか否かを判断する文書解析部と、前記文書の種類に応じて定義される複数の構成要素のうちのいずれに前記未知センテンスが近似するかを推定する未知センテンス処理部と、前記未知センテンス及び前記未知センテンスが近似する前記構成要素を表示する表示処理部と、を備えることを特徴とする。
その他の手段については、発明を実施するための形態のなかで説明する。
A document proofreading support apparatus according to the present invention includes a document analysis unit that determines whether a sentence contained in a document is an unknown sentence that may contain a semantic error, based on whether the sentence matches a predetermined rule. , an unknown sentence processing unit for estimating to which of a plurality of components defined according to the type of the document the unknown sentence approximates; and a display processing unit for displaying.
Other means are described in the detailed description.
本発明によれば、文書内において、意味的な間違いが潜在的に存在する箇所を検知することができる。 According to the present invention, it is possible to detect a place where a semantic error potentially exists in a document.
以降、本発明を実施するための形態(“本実施形態”という)を、図等を参照しながら詳細に説明する。本実施形態は、業務用の文書から、文法的又は型式的な間違い、及び、意味的な間違いを抽出する例である。印刷、製本等を目的として、文書作成者が作成した原稿の誤記又は表現を修正し最終稿とする作業は、一般に“校正”と呼ばれる。本実施形態は、印刷、製本以外の目的にも使用される。その場合における“修正”も含めて、本実施形態は、“校正”の語を使用する。 EMBODIMENT OF THE INVENTION Hereinafter, the form (it is called "this embodiment") for implementing this invention is demonstrated in detail, referring drawings. This embodiment is an example of extracting grammatical or formal errors and semantic errors from business documents. The work of correcting typographical errors or expressions in a manuscript prepared by a document creator for the purpose of printing, bookbinding, etc., and making it into a final manuscript is generally called “proofreading”. This embodiment is also used for purposes other than printing and binding. This embodiment uses the term "proofreading" including "correction" in that case.
(用語等)
文書とは、文字列を含む電子ファイルであり、校正前の原稿である。
文章とは、文書が含む連続する文字列のうち、句点“。”で区切られる1単位である。本実施形態では、“文章”と“センテンス”とは同義である。
ルールとは、センテンスから文法的又は型式的な間違いを検知するための具体的な基準である。
(terms, etc.)
A document is an electronic file containing character strings, and is a manuscript before proofreading.
A sentence is one unit separated by a full stop "." in a continuous character string included in a document. In this embodiment, "sentence" and "sentence" are synonymous.
A rule is a specific criterion for detecting grammatical or formal errors from a sentence.
一致センテンスとは、ルールに一致する箇所を含むセンテンスである。一致センテンスは、文法的又は型式的な間違いを含む。
未知センテンスとは、ルールに一致する箇所を含まないセンテンスである。未知センテンスは、意味的な間違いを含む可能性がある。意味的な間違いを含むか否かが未知であることが、“未知”センテンスの命名理由である。その意味で、未知センテンスは、潜在校正箇所を含むともいえる。
一致センテンスは、意味的な間違いも含む可能性がある。本実施形態では、一致センテンスは、自身が校正され文法的又は型式的な間違いを含まなくなった時点で、未知センテンスになるものとする。
A matching sentence is a sentence that contains a portion that matches the rule. Matching sentences contain grammatical or formal mistakes.
An unknown sentence is a sentence that does not contain a part that matches the rule. Unknown sentences may contain semantic mistakes. The reason for naming the "unknown" sentence is that it is unknown whether or not it contains a semantic error. In that sense, it can be said that the unknown sentence contains the potential proofreading part.
Matching sentences may also contain semantic mistakes. In this embodiment, a matching sentence becomes an unknown sentence once it has been proofread and contains no grammatical or formal errors.
文書種類とは、文書のカテゴリであり、例えば、“見積書”、“特許明細書”、“報告書”、“仕様書”、“議事録”、“決裁書”等である。
構成要素とは、文書が通常含む記載項目であり、文書種類ごとに定義される。例えば、見積書の構成要素は、“工程”、“作業費”、“旅費”及び“作業内容”である。
A document type is a category of a document, and includes, for example, "estimate", "patent specification", "report", "specification", "minutes", and "approval".
A component is a description item that a document normally contains, and is defined for each document type. For example, the components of the quotation are "process", "work cost", "travel cost" and "work content".
(文書校正支援装置の構成)
図1は、文書校正支援装置1の構成を説明する図である。文書校正支援装置1は、一般的なコンピュータであり、中央制御装置11、マウス、キーボード等の入力装置12、ディスプレイ等の出力装置13、主記憶装置14及び補助記憶装置15を備える。これらは、バスで相互に接続されている。
(Configuration of Document Proofing Support Device)
FIG. 1 is a diagram for explaining the configuration of a document
補助記憶装置15は、文書31、ルール情報32、一致センテンス情報33、未知センテンス情報34、ルール別校正時間情報35、一致センテンス別校正時間情報36、文書種類・構成要素情報37、距離情報38、構成要素別重要度情報39、スコア情報40、スコア・校正時間換算情報41、未知センテンス別校正時間情報42及び構成要素推定モデル43を格納している(詳細後記)。
The
これらのうち、文書31、ルール情報32、ルール別校正時間情報35、文書種類・構成要素情報37、構成要素別重要度情報39、スコア・校正時間換算情報41及び構成要素推定モデル43は、ユーザが作成したものを文書校正支援装置1が補助記憶装置15内に取り込んだ結果である。残りの一致センテンス情報33、未知センテンス情報34、一致センテンス別校正時間情報36、距離情報38、スコア情報40及び未知センテンス別校正時間情報42は、文書校正支援装置1が処理途中で作成したものである。
Of these, the
主記憶装置14における文書解析部21、一致センテンス処理部22、未知センテンス処理部23及び表示処理部24は、プログラムである。中央制御装置11は、これらのプログラムを補助記憶装置15から読み出し主記憶装置14にロードすることによって、それぞれのプログラムの機能(詳細後記)を実現する。補助記憶装置15は、需給調整支援装置1から独立した構成となっていてもよい(クラウド)。
The document analysis section 21, matching sentence processing section 22, unknown
(文書)
図2は、文書31の一例である。図2の文書31は、メーカにおける開発関係の報告書である。文書31は、センテンスSE01及びSE02を含む。センテンスSE01には、2つのルールが一致している(符号51及び52)。したがって、センテンスSE01は、一致センテンスである。センテンスSE02に一致するルールは存在しない(符号53)。したがって、センテンスSE02は、未知センテンスである。なお、符号51~53のルールは、説明目的のものであって、文書31自身にこれらが記載されているわけではない。
(documents)
FIG. 2 is an example of the
(ルール情報)
図3は、ルール情報32の一例である。ルール情報32においては、ルールID(欄101)、ルール(欄102)及び重要度(欄103)が相互に関連付けて記憶されている。
ルールID(欄101)は、ルールを一意に特定する識別子である。
ルール(欄102)は、前記したルールである。
重要度は、複数のルール間における相対的なウエイトである。ユーザは、“0<重要度≦1”の範囲内で、重要度を設定する。
(rule information)
FIG. 3 is an example of the
A rule ID (column 101) is an identifier that uniquely identifies a rule.
Rules (column 102) are the rules described above.
Importance is relative weight among multiple rules. The user sets the importance within the range of "0<importance≦1".
(一致センテンス情報)
図4は、一致センテンス情報33の一例である。一致センテンス情報33においては、センテンスID(欄111)、一致センテンス(欄112)、ルールID(欄113)及び重要度(欄114)が相互に関連付けて記憶されている。
センテンスID(欄111)は、センテンスを一意に特定する識別子であり、ここでは、一致センテンスを特定している。
一致センテンス(欄112)は、前記した一致センテンスである。
ルールID(欄113)は、図3のルールと同じである。
重要度(欄114)は、図3の重要度と同じである。
図4の一致センテンス情報33は、センテンスSE01についての2本のレコードを含む。これは、図2におけるルール51及び52に対応している。
(matching sentence information)
FIG. 4 is an example of matching
A sentence ID (column 111) is an identifier that uniquely identifies a sentence, and here identifies a matching sentence.
Matching Sentences (column 112) are the matching sentences described above.
The rule ID (column 113) is the same as the rule in FIG.
The importance (column 114) is the same as the importance in FIG.
The matching
(未知センテンス情報)
図5は、未知センテンス情報34の一例である。未知センテンス情報34においては、センテンスID(欄121)及び未知センテンス(欄122)が相互に関連付けて記憶されている。
センテンスID(欄121)は、センテンスを一意に特定する識別子であり、ここでは、未知センテンスを特定している。
未知センテンス(欄122)は、前記した未知センテンスである。
図5の未知センテンス情報34は、センテンスSE02についての1本のレコードを含む。これは、図2における欄53(一致するルールなし)に対応している。
(Unknown sentence information)
FIG. 5 is an example of the
A sentence ID (column 121) is an identifier that uniquely identifies a sentence, and here identifies an unknown sentence.
The unknown sentence (column 122) is the previously described unknown sentence.
The
(ルール別校正時間情報)
図6は、ルール別校正時間情報35の一例である。ルール別校正時間情報35においては、ルールID(欄131)及び校正時間(欄132)が相互に関連付けて記憶されている。
ルールID(欄131)は、図3のルールIDと同じである。
校正時間(欄132)は、そのルールに一致する間違いを校正するために必要な時間である。ユーザは、過去の事例に基づき、秒単位で校正時間を設定する。
(Calibration time information by rule)
FIG. 6 is an example of the
The rule ID (column 131) is the same as the rule ID in FIG.
The proof time (column 132) is the time required to proof the errors that match the rule. The user sets the calibration time in seconds based on past cases.
(一致センテンス別校正時間情報)
図7は、一致センテンス別校正時間情報36の一例である。一致センテンス別校正時間情報36においては、センテンスID(欄141)及び校正時間(欄142)が相互に関連付けて記憶されている。
センテンスID(欄141)は、図4のセンテンスIDと同じである。
校正時間(欄142)は、図6の校正時間と同じであるが、ここでは、図6の校正時間を一致センテンスごとに集計したものである。例えば、センテンスSE01の校正時間“390”は、図6におけるルールR02の“360”とルールR04の“30”との合計である。
(Proofreading time information for each matching sentence)
FIG. 7 is an example of the matching sentence proofreading
The sentence ID (column 141) is the same as the sentence ID in FIG.
The proofreading time (column 142) is the same as the proofreading time in FIG. 6, but here, the proofreading time in FIG. 6 is aggregated for each matching sentence. For example, the proofreading time "390" of sentence SE01 is the sum of "360" of rule R02 and "30" of rule R04 in FIG.
(文書種類・構成要素情報)
図8は、文書種類・構成要素情報37の一例である。文書種類・構成要素情報37においては、文書種類(欄151)に構成要素1(欄152)~構成要素4(欄155)が関連付けて記憶されている。
文書種類(欄151)は、前記した文書種類である。ユーザは、自身の業務に応じて、複数の文書種類を設定する。
構成要素1(欄152)~構成要素4(欄155)は、前記した構成要素である。ユーザは、文書種類ごとに任意の複数の構成要素を設定する。“KPI”は、“重要業績評価指標”を意味する。
(Document type/component information)
FIG. 8 is an example of the document type/
The document type (column 151) is the document type described above. A user sets a plurality of document types according to his or her business.
Component 1 (column 152) to component 4 (column 155) are the components described above. The user sets any number of constituent elements for each document type. "KPI" means "Key Performance Indicator".
図9は、センテンス空間の一例である。文書校正支援装置1がセンテンス空間を使用して処理をする前提として、センテンスベクトルが定義される。
FIG. 9 is an example of a sentence space. Sentence vectors are defined on the premise that the document proofreading
(センテンスベクトル)
文書校正支援装置1は、文字列としての1つのセンテンスを1つのセンテンスベクトルに変換する。センテンスベクトルの次元数(要素数)は、そのセンテンスの言語の単語辞書の単語数に等しい。そして、センテンスベクトルの各要素は、例えば、その単語がそのセンテンス内に出現する回数である。いま、単語辞書が、単語a、単語b、単語c、単語d及び単語eからなり、センテンス中に、単語aが1回、単語bが0回、単語cが2回、単語dが0回、単語eが1回出現する場合、センテンスベクトルは“(1,0,2,0,1)”となる。ここで説明したセンテンスベクトルは、非常に単純な例である。文書校正支援装置1は、センテンスの意味的特徴をより正確に示すより精緻なセンテンスベクトルを任意の方法で作成し得る。
(sentence vector)
The document
(センテンス空間)
文書校正支援装置1は、センテンスベクトルをセンテンス空間44内の点として描画することができる。センテンス空間44の次元数は、センテンスベクトルの次元数に等しい。センテンス空間44の各軸は、特定の単語の出現回数を示している。文書校正支援装置1は、すべてのセンテンスが文法的、型式的かつ意味的に正しいことが既知である見本文書(学習データ)を文書種類ごとに複数集め、各見本文書のすべてのセンテンスをセンテンスベクトルに変換し、センテンス空間44に“●”として描画する。
(sentence space)
The document
その結果、文書校正支援装置1は、文書種類ごとに、センテンス空間44を作成することになる。図9の1つの“●”が、1つのセンテンスに対応している。文書校正支援装置1は、例えばk平均法のような技術を使用し、これらの●をクラスタに分類する。すると、クラスタ61a~61dは、多くの場合その文書種類の構成要素に1対1で対応することが経験的にわかっている。なお、センテンス空間44は、学習データとしてのセンテンスが複数のクラスタに分類されている空間である。
As a result, the document proofreading
文書校正支援装置1は、ある1つの未知センテンスをセンテンスベクトルに変換し、センテンス空間44に“○”として描画する。すると、ある〇がクラスタ61a~61dのいずれかに分類されるのに対し、他のある○は、いずれのクラスタ61a~61dにも分類されない、ということが起こる。○62aのセンテンスは、クラスタ61aに分類され、文書種類“見積書”の構成要素“工程”について記載したものである。○62bのセンテンスは、どのクラスタ61a~61dにも分類されていない。当該センテンスは、見積書のどの構成要素について記載したものともいえず、意味的な間違い(例えば、見積書の内容に相応しくない宣伝文言)を含む可能性が高い。因みに、ある文書種類のすべての構成要素のクラスタ内に、少なくとも1つの○が分類されている場合、その文書は、必要な記載項目をすべてカバーしているといえる。○が分類されないクラスタが1つでも存在する場合、その文書は、その構成要素(記載項目)を欠いているといえる。
The document
(構成要素推定モデル)
構成要素推定モデル43は、ある文書種類の文書を構成するセンテンスベクトルが入力されると、センテンス空間44における当該センテンスベクトル(○)と当該文書種類の各構成要素(各クラスタの中心)との間の距離を出力する関数である。構成要素推定モデル43は、文書種類ごとに存在する。構成要素推定モデル43は、未知センテンスをセンテンスベクトルに変換する処理を併せて行ってもよい。文書校正支援装置1は、任意のタイミングにおいて、最新の学習データを用いて、センテンス空間44におけるクラスタ61a~61dの位置及び大きさを更新して補助記憶装置15に記憶してもよい。
(Constituent element estimation model)
When a sentence vector forming a document of a certain document type is input, the constituent
(距離情報)
図10は、距離情報38の一例である。距離情報38においては、センテンスID(欄161)、未知センテンス(欄162)、工程距離(欄163)、作業費距離(欄164)、旅費距離(欄165)及び作業内容距離(欄166)が相互に関連付けて記憶されている。
センテンスID(欄161)は、図5のセンテンスIDと同じである。
未知センテンス(欄162)は、図5の未知センテンスと同じである。
(distance information)
FIG. 10 is an example of the
The sentence ID (column 161) is the same as the sentence ID in FIG.
The unknown sentence (column 162) is the same as the unknown sentence of FIG.
工程距離(欄163)は、センテンス空間44(図9)における未知センテンス(“○”で示される)とクラスタ61aの中心との間の距離である。当該距離は、ユークリッド距離、マハラノビス距離又はその他の距離であり得る。この距離が所定の閾値(例えばクラスタ61aの半径)より大きい場合、未知センテンスは、少なくとも構成要素“工程”について記載されていない可能性が高い(以下同様)。
作業費距離(欄164)は、センテンス空間44における未知センテンスとクラスタ61bの中心との間の距離である。
旅費距離(欄165)は、センテンス空間44における未知センテンスとクラスタ61cの中心との間の距離である。
作業内容距離(欄166)は、センテンス空間44における未知センテンスとクラスタ61dの中心との間の距離である。
The step distance (column 163) is the distance between the unknown sentence (indicated by "o") in the sentence space 44 (FIG. 9) and the center of the
The work cost distance (column 164) is the distance between the unknown sentence in
Travel distance (column 165) is the distance between the unknown sentence in
The work content distance (column 166) is the distance between the unknown sentence in the
図10の距離情報38は、文書種類“見積書”についての距離情報38である。図10が、例えば文書種類“特許明細書”についての距離情報38である場合、工程距離、作業距離、旅費距離及び作業内容距離は、それぞれ、課題距離、解決方法距離、請求項距離及び先行技術距離に変わる。
The
(構成要素別重要度情報)
図11は、構成要素別重要度情報39の一例である。構成要素別重要度情報39においては、構成要素(欄171)及び重要度(欄172)が相互に関連付けて記憶されている。
構成要素(欄171)は、前記した構成要素である。
重要度(欄172)は、複数の構成要素間における相対的なウエイトである。ユーザは、“0<重要度≦1”の範囲内で、重要度を設定する。文書校正支援装置1は、見本文書の各構成要素におけるセンテンス中の文字数又はキーワード数に基づき重要度を自動的に設定してもよい。
構成要素別重要度情報39は、文書種類ごとに存在する。
(Importance information for each component)
FIG. 11 is an example of the
The component (column 171) is the component described above.
Importance (column 172) is the relative weight between multiple components. The user sets the importance within the range of "0<importance≦1". The document
The
(スコア情報)
図12は、スコア情報40の一例である。スコア情報40においては、センテンスID(欄181)、未知センテンス(欄182)、工程スコア(欄183)、作業費スコア(欄184)、旅費スコア(欄185)及び作業内容スコア(欄186)が相互に関連付けて記憶されている。
センテンスID(欄181)は、図5のセンテンスIDと同じである。
未知センテンス(欄182)は、図5の未知センテンスと同じである。
(Score information)
FIG. 12 is an example of the
The sentence ID (column 181) is the same as the sentence ID in FIG.
The unknown sentence (column 182) is the same as the unknown sentence of FIG.
工程スコア(欄183)は、図10の工程距離に対して、図11の重要度のうち工程に対応するものを乗算した値である。
作業費スコア(欄184)は、図10の作業費距離に対して、図11の重要度のうち作業費対応するものを乗算した値である。
旅費スコア(欄185)は、図10の旅費距離に対して、図11の重要度のうち旅費に対応するものを乗算した値である。
作業内容スコア(欄186)は、図10の作業内容距離に対して、図11の重要度のうち作業内容に対応するものを乗算した値である。
スコア情報40もまた、文書種類ごとに存在する。前記では、スコアは距離に対し重要度を乗算したものとしたが、これはあくまでも一例である。スコアは、加算、指数計算等を使用して算出されてもよい。要するに、距離が大きいほど、かつ、重要度が大きいほど、スコアも大きくなればよい。
The process score (column 183) is a value obtained by multiplying the process distance shown in FIG. 10 by the degree of importance shown in FIG. 11 corresponding to the process.
The work cost score (column 184) is a value obtained by multiplying the work cost distance in FIG. 10 by the degree of importance in FIG. 11 corresponding to the work cost.
The travel expense score (column 185) is a value obtained by multiplying the travel expense distance in FIG. 10 by the degree of importance in FIG. 11 corresponding to the travel expense.
The work content score (column 186) is a value obtained by multiplying the work content distance in FIG. 10 by the degree of importance in FIG. 11 corresponding to the work content.
(スコア・校正時間換算情報)
図13は、スコア・校正時間換算情報41の一例である。スコア・校正時間換算情報41においては、スコア(欄191)及び校正時間(欄192)が相互に関連付けて記憶されている。
スコア(欄191)は、例えば前記した“工程スコア”であり、より一般的には、センテンスベクトルと構成要素のクラスタの中心との間の距離に対して、その構成要素についての重要度を演算(乗算等)した値である。
校正時間(欄192)は、未知センテンスのうち、そのスコアに対応する間違いの箇所を校正するために必要な時間である。ユーザは、過去の事例に基づき、秒単位で校正時間を設定する。文書校正支援装置1は、ユーザが実際に校正に有した時間に基づき校正時間を更新してもよい。
(Score/correction time conversion information)
FIG. 13 is an example of the score/proofreading
The score (column 191) is, for example, the "process score" described above, and more generally calculates the importance of the component with respect to the distance between the sentence vector and the center of the cluster of the component. It is a value obtained by (multiplying, etc.).
The proofreading time (column 192) is the time required to proofread the erroneous part corresponding to the score in the unknown sentence. The user sets the calibration time in seconds based on past cases. The document
(未知センテンス別校正時間情報)
図14は、未知センテンス別校正時間情報42の一例である。未知センテンス別校正時間情報42においては、センテンスID(欄201)、未知センテンス(欄202)、工程スコア(欄203a)、工程校正時間(欄203b)、作業費スコア(欄204a)、作業費校正時間(欄204b)、旅費スコア(欄205a)、旅費校正時間(欄205b)、作業内容スコア(欄206a)及び作業内容校正時間(欄206b)が相互に関連付けて記憶されている。
(Calibration time information for each unknown sentence)
FIG. 14 is an example of the
センテンスID(欄201)は、図5のセンテンスIDと同じである。
未知センテンス(欄202)は、図5の未知センテンスと同じである。
工程スコア(欄203a)は、図12の工程スコアと同じである。
工程校正時間(欄203b)は、スコア・校正時間換算情報41(図13)が工程スコアを換算した結果の校正時間である。
作業費スコア(欄204a)は、図12の作業費スコアと同じである。
作業費校正時間(欄204b)は、スコア・校正時間換算情報41が作業費スコアを換算した結果の校正時間である。
The sentence ID (column 201) is the same as the sentence ID in FIG.
The unknown sentence (column 202) is the same as the unknown sentence in FIG.
The process score (
The process calibration time (
The work cost score (
The work cost proofreading time (
旅費スコア(欄205a)は、図12の旅費スコアと同じである。
旅費校正時間(欄205b)は、スコア・校正時間換算情報41が旅費スコアを換算した結果の校正時間である。
作業内容スコア(欄206a)は、図12の作業内容スコアと同じである。
作業内容校正時間(欄206b)は、スコア・校正時間換算情報41が作業内容スコアを換算した結果の校正時間である。
The travel expense score (
The travel expense proofreading time (
The work content score (
The work content proofreading time (
未知センテンス別校正時間情報42がスコアだけでなく校正時間を記憶することによって、ユーザは、ある未知センテンスをどの構成要素に校正する場合どの程度の時間を要するかがわかるようになる。
The unknown sentence proofreading
(処理手順)
以降で本実施形態の処理手順を説明する。処理手順は3つ存在し、それらは、文書解析処理手順、一致センテンス処理手順及び未知センテンス処理手順である。
(Processing procedure)
The processing procedure of this embodiment will be described below. There are three procedures: document analysis procedure, matched sentence procedure and unknown sentence procedure.
(文書解析処理手順)
図15は、文書解析処理手順のフローチャートである。
ステップS301において、文書校正支援装置1の文書解析部21は、文書を取得する。具体的には、文書解析部21は、文書31を、入力装置12を介して外部から又は補助記憶装置15から取得する。
(Document analysis processing procedure)
FIG. 15 is a flow chart of the document analysis processing procedure.
In step S301, the document analysis unit 21 of the document proofreading
ステップS302において、文書解析部21は、文字列を取得する。具体的には、文書解析部21は、文書31の中から、文字列を取得する。
ステップS303において、文書解析部21は、文字列をセンテンスに分割する。具体的には、文書解析部21は、句点“。”を区切りとして、文字列を複数のセンテンスに分割する。このとき、文書解析部21は、形態素解析(品詞分解)及び単語間の係り受け解析を行ってもよい。
In step S302, the document analysis unit 21 acquires a character string. Specifically, the document analysis unit 21 acquires character strings from the
In step S303, the document analysis unit 21 divides the character string into sentences. Specifically, the document analysis unit 21 divides the character string into a plurality of sentences using the period "." as a delimiter. At this time, the document analysis unit 21 may perform morphological analysis (part-of-speech analysis) and dependency analysis between words.
ステップS304において、文書解析部21は、センテンスとルールとを突合する。具体的には、第1に、文書解析部21は、未処理のセンテンスのうち任意の1つを取得する。
第2に、文書解析部21は、センテンスとルール情報32(図3)の各ルールとを突合し、そのセンテンスに一致するすべてのルールを特定する。
第3に、文書解析部21は、ステップS304の“第2”において特定したルールの数をカウントする。カウント結果は、“0”、“1”、“2”、“3”、・・・である。
In step S304, the document analysis unit 21 compares sentences and rules. Specifically, first, the document analysis unit 21 acquires any one of the unprocessed sentences.
Second, the document analysis unit 21 compares the sentence with each rule in the rule information 32 (FIG. 3) to identify all rules that match the sentence.
Third, the document analysis unit 21 counts the number of rules specified in the "second" of step S304. The count results are "0", "1", "2", "3", .
ステップS305において、文書解析部21は、センテンスがルールに一致するか否かを判断する。具体的には、文書解析部21は、ステップS304の“第3”におけるカウント結果が“0”である場合(ステップS305“NO”)、ステップS307に進み、それ以外の場合(ステップS305“YES”)、ステップS306に進む。 In step S305, the document analysis unit 21 determines whether the sentence matches the rule. Specifically, when the count result in the “third” of step S304 is “0” (step S305 “NO”), the document analysis unit 21 proceeds to step S307; otherwise (step S305 “YES”). ”), and the process proceeds to step S306.
ステップS306において、文書解析部21は、一致センテンス情報33(図4)に登録する。具体的には、文書解析部21は、一致センテンス情報33において、処理対象のセンテンスについてのレコードを作成する。
In step S306, the document analysis unit 21 registers the matching sentence information 33 (FIG. 4). Specifically, the document analysis unit 21 creates a record for the sentence to be processed in the matching
ステップS307において、文書解析部21は、未知センテンス情報34(図5)に登録する。具体的には、文書解析部21は、未知センテンス情報34において、処理対象のセンテンスについてのレコードを作成する。文書解析部21は、ステップS305において、文書31に含まれるセンテンスが所定のルールに一致しない場合、ステップS307において、そのセンテンスが意味的な間違いを含み得る未知センテンスであると判断することになる。
In step S307, the document analysis unit 21 registers the unknown sentence information 34 (FIG. 5). Specifically, the document analysis unit 21 creates a record for the sentence to be processed in the
文書解析部21は、ステップS304以降の処理を、未処理のセンテンスごとに繰り返し、最後のセンテンスについてのステップS306又はS307の後に文書解析処理手順を終了する。文書解析処理手順が終了した時点で、ステップS301において取得した文書31に含まれるすべてのセンテンスは、一致センテンス情報33(図4)又は未知センテンス情報34(図5)に仕分けられたうえで記憶されている。
The document analysis unit 21 repeats the processing after step S304 for each unprocessed sentence, and ends the document analysis processing procedure after step S306 or S307 for the last sentence. When the document analysis processing procedure ends, all the sentences included in the
(一致センテンス処理手順)
図16は、一致センテンス処理手順のフローチャートである。
ステップS321において、文書校正支援装置1の一致センテンス処理部22は、一致センテンスを取得する。具体的には、一致センテンス処理部22は、一致センテンス情報33(図4)から未処理の任意の一致センテンスを取得する。
(Matching sentence processing procedure)
FIG. 16 is a flow chart of the matching sentence processing procedure.
In step S321, the matching sentence processing unit 22 of the document proofreading
ステップS322において、一致センテンス処理部22は、ルールに基づき校正時間を取得する。具体的には、一致センテンス処理部22は、ステップS321において取得したセンテンスに一致するすべてのルールの校正時間をルール別校正時間情報35(図6)から取得する。 In step S322, the matching sentence processing section 22 acquires the proofreading time based on the rule. Specifically, the matching sentence processing unit 22 acquires the proofreading times of all rules matching the sentence obtained in step S321 from the rule-by-rule proofreading time information 35 (FIG. 6).
ステップS323において、一致センテンス処理部22は、センテンスごとに校正時間を合計する。具体的には、一致センテンス処理部22は、ステップS322において取得した校正時間を合計する。 In step S323, the matching sentence processing unit 22 totals the proofreading time for each sentence. Specifically, the matching sentence processing unit 22 sums up the proofreading times acquired in step S322.
ステップS324において、一致センテンス処理部22は、一致センテンス別校正時間情報36(図7)に登録する。具体的には、一致センテンス処理部22は、一致センテンス別校正時間情報36において、処理対象のセンテンスについてのレコードを作成する。
一致センテンス処理部22は、ステップS321~S324の処理を、未処理の一致センテンスごとに繰り返す。未処理の一致センテンスがなくなった段階で、一致センテンス処理手順を終了する。
In step S324, the matching sentence processing unit 22 registers in the matching sentence proofreading time information 36 (FIG. 7). Specifically, the matching sentence processing unit 22 creates a record for the sentence to be processed in the matching sentence proofreading
The matching sentence processing unit 22 repeats the processing of steps S321 to S324 for each unprocessed matching sentence. When there are no more unprocessed matching sentences, the matching sentence processing procedure ends.
(未知センテンス処理手順)
図17は、未知センテンス処理手順のフローチャートである。
ステップS341において、文書校正支援装置1の未知センテンス処理部23は、未知センテンスを取得する。具体的には、未知センテンス処理部23は、未知センテンス情報34(図5)から未処理の任意の未知センテンスを取得する。
(Unknown sentence processing procedure)
FIG. 17 is a flow chart of the unknown sentence processing procedure.
In step S341, the unknown
ステップS342において、未知センテンス処理部23は、文書種類を受け付ける。具体的には、第1に、未知センテンス処理部23は、ステップS301において取得した文書31を出力装置13に表示する。
第2に、未知センテンス処理部23は、ユーザが入力装置12を介して文書種類を入力するのを受け付ける。ユーザは、文書31を視認して、入力するべき文書種類を決定する。説明の都合上、ここでは“見積書”が入力されたとする。未知センテンス処理部23は、ユーザによる入力を待つまでもなく、例えば文書31のタイトル等に基づき、自動的に文書種類を決定してもよい。
At step S342, the unknown
Second, the unknown
ステップS343において、未知センテンス処理部23は、センテンスベクトルを作成する。具体的には、未知センテンス処理部23は、ステップS341において取得したセンテンスを前記した方法でセンテンスベクトルに変換する。
In step S343, the unknown
ステップS344において、未知センテンス処理部23は、センテンス空間44を作成する。具体的には、第1に、未知センテンス処理部23は、図9のセンテンス空間44を作成し、見積書の見本文書を学習データ(●)として、複数のクラスタを作成する。作成された個々のクラスタは、文書種類・構成要素情報37(図8)の構成要素1~構成要素4に対応している。ここでのクラスタは、そのクラスタに分類されるすべての●を包絡する最小の球であってもよいし、すべての●の重心を中心とし、重心から最も遠い●までの距離を半径とする球であってもよい。未知センテンス処理部23は、任意のタイミングにおいて当該処理を予め完了させておいてもよい。
第2に、未知センテンス処理部23は、ステップS343において作成したセンテンスベクトル(○)を、センテンス空間44に描画する。
In step S344, the unknown
Second, the unknown
ステップS345において、未知センテンス処理部23は、未知センテンスが構成要素を含むか否かを判断する。具体的には、第1に、未知センテンス処理部23は、ステップS344の“第2”において描画した○が、いずれかのクラスタの内部に存在するか否かを調べる。
第2に、未知センテンス処理部23は、○がいずれかのクラスタの内部に存在する場合(ステップS345“YES”)、ステップS346に進み、それ以外の場合(ステップS345“NO”)、ステップS347に進む。
In step S345, the unknown
Secondly, the unknown
ステップS346において、未知センテンス処理部23は、スコア及び校正時間を“0”とする。具体的には、未知センテンス処理部23は、ステップS341において取得した未知センテンスのスコア及び校正時間は“0”であるとする。ここで未知センテンス処理部23は、その未知センテンスが見積書に通常含まれるいずれかの構成要素を記載している結果、その未知センテンスは校正を要しないと判断している。
At step S346, the unknown
ステップS347において、未知センテンス処理部23は、距離を算出する。具体的には、第1に、未知センテンス処理部23は、見積書についての構成要素推定モデル43に対し、ステップS343において作成したセンテンスベクトルを入力する。すると、構成要素推定モデル43は、センテンス空間44における、当該未知センテンス(○)と各クラスタの中心との距離を出力する。未知センテンス処理部23は、この距離を受け取る。
第2に、未知センテンス処理部23は、ステップS347の“第1”において受け取った距離に基づき、距離情報38(図10)のレコードを作成する。ステップS347において、未知センテンス処理部23は、文書31の種類に応じて定義される複数の構成要素のうちのいずれに未知センテンスが近似するかを推定することになる。
In step S347, the unknown
Secondly, the unknown
ステップS348において、未知センテンス処理部23は、スコアを算出する。具体的には、第1に、未知センテンス処理部23は、ステップS347の“第2”において作成したレコードの工程距離に対し、図11の重要度のうち工程に対応するものを乗算し、工程スコアを算出する。未知センテンス処理部23は、同様にして、作業費スコア、旅費スコア及び作業内容スコアも算出する。
第2に、未知センテンス処理部23は、ステップS348の“第1”において算出したスコアに基づき、スコア情報40(図12)のレコードを作成する。
In step S348, the unknown
Secondly, the unknown
ステップS349において、未知センテンス処理部23は、校正時間を算出する。具体的には、未知センテンス処理部23は、ステップS348の“第2”において作成したレコードの工程スコアに対し、図13のスコア・校正時間換算情報41を適用し、工程校正時間を算出する。未知センテンス処理部23は、同様にして、作業費校正時間、旅費校正時間及び作業内容校正時間も算出する。
In step S349, the unknown
ステップS350において、未知センテンス処理部23は、未知センテンス別校正時間情報42(図14)に登録する。具体的には、未知センテンス処理部23は、ステップS346、S348及びS349において算出したスコア及び校正時間に基づき、未知センテンス別校正時間情報42(図14)のレコードを作成する。
In step S350, the unknown
ステップS351において、文書校正支援装置1の表示処理部24は、校正時間を表示する。具体的には、表示処理部24は、ステップS324において作成したレコード及びステップS350において作成したレコードを使用して出力装置13に校正時間表示画面71(図18)を表示する。その後、未知センテンス処理手順を終了する。
In step S351, the
図18は、校正時間表示画面71の一例である。一致センテンス欄72には、文書31の一致センテンスについての校正時間及び重要度が表示されている。ここでの校正時間及び重要度は、原則、一致センテンスに一致するルールごとに表示される。未知センテンス欄73には、文書31の未知センテンスについてのスコア及び校正時間が表示されている。ここでのスコア及び校正時間は、原則、未知センテンスごとかつ構成要素ごとに表示される。いま、ユーザが一致センテンス欄72及び未知センテンス欄73のあるレコードの選択欄にチェックマークを入力したとする。すると、表示処理部24は、文書欄74に文書31を表示したうえで、選択されたセンテンスを強調表示(例えば下線付与)する。ここでの文書31は、図2の文書31とは異なる。
FIG. 18 is an example of the calibration
文書欄74において、センテンスSE03は、未知センテンスである。表示処理部24は、センテンスSE03に吹き出し75を付している。吹き出し75には“最近似構成要素:工程”が記載されている。このことは、センテンスSE03と各構成要素との距離のうち、“工程距離”が最も短いことを示している。
In the document field 74, sentence SE03 is an unknown sentence. The
この場合、例えば以下のことが想定される。
・文書作成者は、工程についてセンテンスSE03を記載しようとしたにもかかわらず、僅かに注意力が不足した結果、センテンスSE03が意味的な間違いを含んでしまった可能性が高い。
・文書作成者は、いずれの構成要素とも関係のない事象についてセンテンスSE03を記載していた可能性も高い。このセンテンスをいずれかの構成要素についての記載に校正することは可能である。その場合、未知センテンスSE03が工程に最も近似していることを考慮すれば、工程の重要度が極端に大きくない限り、未知センテンスSE03を工程についてのセンテンスに校正する校正時間が最も短い。
In this case, for example, the following are assumed.
・Although the document creator tried to write the sentence SE03 about the process, it is highly likely that the sentence SE03 contained a semantic error as a result of a slight lack of attention.
・There is a high possibility that the document creator wrote sentence SE03 about an event unrelated to any component. It is possible to modify this sentence to describe any component. In that case, considering that the unknown sentence SE03 is closest to the process, the calibration time to calibrate the unknown sentence SE03 to a sentence about the process is the shortest unless the importance of the process is extremely large.
表示処理部24は、センテンスSE21に吹き出し76を付している。吹き出し76には、センテンスSE21に一致する2つのルールが記載されている。表示処理部24は、ユーザ(文書作成者又は校正担当者)が文書31の校正に使用できる時間を、ユーザから受け付け、又は、ユーザのスケジュール情報等から取得し、対応可能時間77として表示する。表示処理部24は、文書31が含むすべてのセンテンス又はそのうち入力されたチェックマークに対応するセンテンスの校正に要する時間(前記した校正時間の和)を予測校正時間78として表示する。表示処理部24は、文書欄74においてユーザがセンテンスを校正した結果を補助記憶装置15に記憶してもよい。
The
表示処理部24は、ステップS345において校正を要しないと判断された未知センテンスを校正時間表示画面71の任意の箇所に表示してもよい。
The
(本実施形態の効果)
本実施形態の文書校正支援装置の効果は以下の通りである。
(1)文書校正支援装置は、意味的な間違いを含み得る未知センテンス及びその未知センテンスが近似する文書の構成要素を表示することができる。
(2)文書校正支援装置は、センテンス空間内の距離として、未知センテンスと文書の各構成要素との近似を数値化することができる。
(3)文書校正支援装置は、未知センテンスをセンテンスベクトルに変換することによって、未知センテンスの構成要素を正確に推定することができる。
(Effect of this embodiment)
The effects of the document proofreading support apparatus of this embodiment are as follows.
(1) The document proofreading support device can display an unknown sentence that may contain a semantic error and the constituent elements of the document that the unknown sentence is similar to.
(2) The document proofreading support apparatus can quantify the approximation between the unknown sentence and each component of the document as the distance in the sentence space.
(3) The document proofreading support apparatus can accurately estimate the components of an unknown sentence by converting the unknown sentence into a sentence vector.
(4)文書校正支援装置は、学習データを更新することによってクラスタの位置及び大きさを更新することができる。
(5)文書校正支援装置は、校正する必要がない未知センテンスを正確に特定することができる。
(6)文書校正支援装置は、構成要素ごとの重要度を距離に反映させることができる。
(7)文書校正支援装置は、未知センテンスの校正に必要な時間を表示することができる。
(4) The document proofreading support apparatus can update the position and size of the cluster by updating the learning data.
(5) The document proofreading support device can accurately identify unknown sentences that do not need to be proofread.
(6) The document proofreading support device can reflect the importance of each component in the distance.
(7) The document proofreading support device can display the time required to proofread an unknown sentence.
なお、本発明は前記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、前記した実施例は、本発明を分かり易く説明するために詳細に説明したものであり、必ずしも説明したすべての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。また、各実施例の構成の一部について、他の構成の追加・削除・置換をすることが可能である。 In addition, the present invention is not limited to the above-described embodiments, and includes various modifications. For example, the above-described embodiments have been described in detail for easy understanding of the present invention, and are not necessarily limited to those having all the described configurations. In addition, it is possible to replace part of the configuration of one embodiment with the configuration of another embodiment, and it is also possible to add the configuration of another embodiment to the configuration of one embodiment. Moreover, it is possible to add, delete, or replace a part of the configuration of each embodiment with another configuration.
1 文書校正支援装置
11 中央制御装置
12 入力装置
13 出力装置
14 主記憶装置
15 補助記憶装置
21 文書解析部
22 一致センテンス処理部
23 未知センテンス処理部
24 表示処理部
31 文書
32 ルール情報
33 一致センテンス情報
34 未知センテンス情報
35 ルール別校正時間情報
36 一致センテンス別校正時間情報
37 文書種類・構成要素情報
38 距離情報
39 構成要素別重要度情報
40 スコア情報
41 スコア・校正時間換算情報
42 未知センテンス別校正時間情報
43 構成要素推定モデル
44 センテンス空間
71 校正時間表示画面
1 Document
Claims (9)
前記文書の種類に応じて定義される複数の構成要素のうちのいずれに前記未知センテンスが近似するかを推定する未知センテンス処理部と、
前記未知センテンス及び前記未知センテンスが近似する前記構成要素を表示する表示処理部と、
を備えることを特徴とする文書校正支援装置。 a document analysis unit that determines whether or not the sentence contained in the document is an unknown sentence that may contain a semantic error, based on whether or not the sentence contained in the document matches a predetermined rule;
an unknown sentence processing unit for estimating to which of a plurality of components defined according to the type of the document the unknown sentence approximates;
a display processing unit that displays the unknown sentence and the component that the unknown sentence approximates;
A document proofreading support device comprising:
前記所定のルールに一致しない未知センテンスを入力とし、前記未知センテンスと前記複数の構成要素のそれぞれとの間の距離を出力とする構成要素推定モデルを使用すること、
を特徴とする請求項1に記載の文書校正支援装置。 The unknown sentence processing unit
using a component estimation model that takes as input an unknown sentence that does not match the predetermined rule and outputs distances between the unknown sentence and each of the plurality of components;
The document proofreading support device according to claim 1, characterized by:
前記未知センテンスをセンテンスベクトルに変換し、前記変換したセンテンスベクトルを前記構成要素推定モデルに入力し、前記構成要素推定モデルから前記距離を取得すること、
を特徴とする請求項2に記載の文書校正支援装置。 The unknown sentence processing unit
converting the unknown sentence to a sentence vector, inputting the converted sentence vector to the component estimation model, and obtaining the distance from the component estimation model;
3. The document proofreading support device according to claim 2, characterized by:
学習データとしてのセンテンスが複数のクラスタに分類されている空間において、前記変換したセンテンスベクトルと、前記複数のクラスタのそれぞれとの間の距離を算出すること、
を特徴とする請求項3に記載の文書校正支援装置。 The component estimation model is
Calculating the distance between the converted sentence vector and each of the plurality of clusters in a space in which sentences as learning data are classified into a plurality of clusters;
4. The document proofreading support device according to claim 3, characterized by:
前記未知センテンスが前記複数のクラスタのいずれかに分類される場合、当該未知センテンスを校正する必要がないと判断すること、
を特徴とする請求項4に記載の文書校正支援装置。 The unknown sentence processing unit
determining that there is no need to proofread the unknown sentence if the unknown sentence is classified into one of the plurality of clusters;
5. The document proofreading support device according to claim 4, characterized by:
前記距離及び前記構成要素ごとに定義される重要度に基づいて、前記構成要素ごとにスコアを算出し、
前記表示処理部は、
前記未知センテンスに関連付けて前記算出したスコアを表示すること、
を特徴とする請求項5に記載の文書校正支援装置。 The unknown sentence processing unit
calculating a score for each component based on the distance and the importance defined for each component;
The display processing unit
displaying the calculated score in association with the unknown sentence;
The document proofreading support device according to claim 5, characterized by:
前記スコアを校正に必要な時間に換算し、
前記表示処理部は、
前記未知センテンスに関連付けて前記換算した時間を表示すること、
を特徴とする請求項6に記載の文書校正支援装置。 The unknown sentence processing unit
Convert the score to the time required for proofreading,
The display processing unit
displaying the converted time in association with the unknown sentence;
7. The document proofreading support device according to claim 6, characterized by:
文書に含まれるセンテンスが所定のルールに一致するか否かにより、前記センテンスが意味的な間違いを含み得る未知センテンスであるか否かを判断し、
前記文書校正支援装置の未知センテンス処理部は、
前記文書の種類に応じて定義される複数の構成要素のうちのいずれに前記未知センテンスが近似するかを推定し、
前記文書校正支援装置の表示処理部は、
前記未知センテンス及び前記未知センテンスが近似する前記構成要素を表示すること、
を特徴とする文書校正支援装置の文書校正支援方法。 The document analysis unit of the document proofreading support device
determining whether or not the sentence contained in the document is an unknown sentence that may contain a semantic error, depending on whether or not the sentence contained in the document matches a predetermined rule;
The unknown sentence processing unit of the document proofreading support device includes:
estimating to which of a plurality of components defined according to the type of the document the unknown sentence approximates;
The display processing unit of the document proofreading support device includes:
displaying the unknown sentence and the component to which the unknown sentence approximates;
A document proofreading support method for a document proofreading support device characterized by:
文書に含まれるセンテンスが所定のルールに一致するか否かにより、前記センテンスが意味的な間違いを含み得る未知センテンスであるか否かを判断する文書解析部と、
前記文書の種類に応じて定義される複数の構成要素のうちのいずれに前記未知センテンスが近似するかを推定する未知センテンス処理部と、
前記未知センテンス及び前記未知センテンスが近似する前記構成要素を表示する表示処理部と、
して機能させるための文書校正支援プログラム。 the computer,
a document analysis unit that determines whether or not the sentence contained in the document is an unknown sentence that may contain a semantic error, based on whether or not the sentence contained in the document matches a predetermined rule;
an unknown sentence processing unit for estimating to which of a plurality of components defined according to the type of the document the unknown sentence approximates;
a display processing unit that displays the unknown sentence and the component that the unknown sentence approximates;
A document proofreading support program to function as
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021184785A JP2023072321A (en) | 2021-11-12 | 2021-11-12 | Document proofreading support device, document proofreading support method, and document proofreading support program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021184785A JP2023072321A (en) | 2021-11-12 | 2021-11-12 | Document proofreading support device, document proofreading support method, and document proofreading support program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023072321A true JP2023072321A (en) | 2023-05-24 |
Family
ID=86424404
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021184785A Pending JP2023072321A (en) | 2021-11-12 | 2021-11-12 | Document proofreading support device, document proofreading support method, and document proofreading support program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2023072321A (en) |
-
2021
- 2021-11-12 JP JP2021184785A patent/JP2023072321A/en active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10496755B2 (en) | Information processing apparatus, information processing method, and non-transitory computer readable medium storing program | |
CN107247707B (en) | Enterprise association relation information extraction method and device based on completion strategy | |
US7584093B2 (en) | Method and system for generating spelling suggestions | |
US9639522B2 (en) | Methods and apparatus related to determining edit rules for rewriting phrases | |
US9514098B1 (en) | Iteratively learning coreference embeddings of noun phrases using feature representations that include distributed word representations of the noun phrases | |
KR101279676B1 (en) | Method and apparatus for creating a language model and kana-kanji conversion | |
US8924852B2 (en) | Apparatus, method, and program for supporting processing of character string in document | |
JPH11203311A (en) | Device for extracting related word and method therefor and computer readable recording medium for recording related word extraction program | |
JP7155758B2 (en) | Information processing device, information processing method and program | |
US9336186B1 (en) | Methods and apparatus related to sentence compression | |
US11537797B2 (en) | Hierarchical entity recognition and semantic modeling framework for information extraction | |
US11593557B2 (en) | Domain-specific grammar correction system, server and method for academic text | |
JPWO2014002776A1 (en) | Synonym extraction system, method and recording medium | |
WO2014036827A1 (en) | Text correcting method and user equipment | |
JP7155625B2 (en) | Inspection device, inspection method, program and learning device | |
JP6830226B2 (en) | Paraphrase identification method, paraphrase identification device and paraphrase identification program | |
JP2023072321A (en) | Document proofreading support device, document proofreading support method, and document proofreading support program | |
CN112733517B (en) | Method for checking requirement template conformity, electronic equipment and storage medium | |
US20090319505A1 (en) | Techniques for extracting authorship dates of documents | |
JP5673265B2 (en) | Calibration support apparatus and calibration support program | |
CN112817996A (en) | Illegal keyword library updating method, device, equipment and storage medium | |
JP4314271B2 (en) | Inter-word relevance calculation device, inter-word relevance calculation method, inter-word relevance calculation program, and recording medium recording the program | |
JP6766972B1 (en) | Document proofreading equipment, document proofreading methods, and programs | |
KR102540564B1 (en) | Method for data augmentation for natural language processing | |
Samsuri et al. | A comparison of distributed, pam, and trie data structure dictionaries in automatic spelling correction for indonesian formal text |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20240213 |