JP2006338682A - 文書校正装置およびプログラム記憶媒体 - Google Patents
文書校正装置およびプログラム記憶媒体 Download PDFInfo
- Publication number
- JP2006338682A JP2006338682A JP2006207617A JP2006207617A JP2006338682A JP 2006338682 A JP2006338682 A JP 2006338682A JP 2006207617 A JP2006207617 A JP 2006207617A JP 2006207617 A JP2006207617 A JP 2006207617A JP 2006338682 A JP2006338682 A JP 2006338682A
- Authority
- JP
- Japan
- Prior art keywords
- error probability
- error
- word
- text
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
【解決手段】複数の誤り確率計算部2a,2b,…は,それぞれ異なる誤り確率計算手法により誤り確率値を計算する。誤り確率保存部3はこれらの誤り確率値を集計し,原テキストの各文字または文字列に対して,集計した誤り確率値を付与する。誤り候補抽出部5は所定の誤り確率閾値4を超える誤り確率値を持つ文字または文字列を誤り候補として抽出する。誤り表示処理部6は,抽出された誤り候補を校正用のテキスト中に下線付き表示または色違い表示等により表示する。
【選択図】図1
Description
2a,2b,… 誤り確率計算部
3 誤り確率保存部
4 誤り確率閾値
5 誤り候補抽出部
6 誤り表示処理部
20 誤り確率計算部
21 形態素解析部
22 未登録語検出部
23 固有名詞パターン検出部
30 誤り確率計算部
31 語彙抽出部
32 カテゴリ化部
33 確率付与部
40 誤り確率計算部
41 形態素解析部
42 領域分割処理部
43 確率付与部
51 誤り候補検出部
52 拡張形態素解析部
53 単語比較部
54 単語辞書
55 誤り表示処理部
Claims (4)
- テキスト文書における誤りを指摘する文書校正装置において,
テキストの各構成文字または文字列に対して所定の異なる誤り確率計算手法により誤り確率値を計算し,それぞれ計算された誤り確率値を付与する複数の誤り確率計算手段と,
前記複数の誤り確率計算手段から各々得た誤り確率値を集計し,各構成文字または文字列に対する最終的な誤り確率値を定める誤り確率保存手段と,
前記テキストの各構成文字または文字列に対して付与された誤り確率値と,外部から設定された誤り確率閾値または予め定められた誤り確率閾値との大小の比較により,誤り候補を抽出する誤り候補抽出手段と,
抽出された誤り候補を出力する誤り表示処理手段とを備え,
かつ,前記複数の誤り確率計算手段の中に,
テキストを形態素解析して単語列に分割する形態素解析手段と,
分割された単語列のうち,所定の単語辞書に未登録の部分に対して所定の誤り確率値を付与する未登録語検出手段と,
分割された単語列に対して,その単語列が,未登録語と特定の品詞または特定の単語が並ぶパターンであって,予め解析用データとして登録されたパターンと一致するか否かを判定し,一致する場合に,前記未登録語検出手段が未登録語に対して付与した誤り確率値を低くするような負の誤り確率値を付与する特定パターン検出手段とを持つ誤り確率計算手段を有する
ことを特徴とする文書校正装置。 - テキスト文書における誤りを指摘する文書校正装置において,
テキストの各構成文字または文字列に対して所定の異なる誤り確率計算手法により誤り確率値を計算し,それぞれ計算された誤り確率値を付与する複数の誤り確率計算手段と,
前記複数の誤り確率計算手段から各々得た誤り確率値を集計し,各構成文字または文字列に対する最終的な誤り確率値を定める誤り確率保存手段と,
前記テキストの各構成文字または文字列に対して付与された誤り確率値と,外部から設定された誤り確率閾値または予め定められた誤り確率閾値との大小の比較により,誤り候補を抽出する誤り候補抽出手段と,
抽出された誤り候補を出力する誤り表示処理手段とを備え,
かつ,前記複数の誤り確率計算手段の中に,
テキストの形態素解析によってテキストを分割することにより得られた単語列のうち,所定の単語辞書に未登録の部分に対して所定の誤り確率値を付与する未登録語検出手段と,分割された前記単語列に対して,その単語列が,未登録語と特定の品詞または特定の単語が並ぶパターンであって,予め解析用データとして登録されたパターンと一致するか否かを判定し,一致する場合に,前記未登録語検出手段が未登録語に対して付与した誤り確率値を低くするような負の誤り確率値を付与する特定パターン検出手段とを有する第1の誤り確率計算手段,
または,テキストから構成単語を抽出する語彙抽出手段と,抽出された単語群について単語間の類似度に基づき,単語相互の類似度の高い単語を同一カテゴリに分類することによりカテゴリ化を行うカテゴリ化手段と,同一カテゴリ内の各単語間の類似度および単語の出現回数に基づいて誤り確率値を付与する確率付与手段とを有する第2の誤り確率計算手段,
または,テキストを形態素解析して単語列に分割した結果に基づき,テキストを同種の文字で構成される領域に分割する領域分割処理手段と,各文字種に対する単語長の予想値を持ち,同種の文字で構成される各領域内での平均単語長と前記予想値との差に基づいてその領域に対する誤り確率を付与する確率付与手段とを有する第3の誤り確率計算手段,
の少なくともいずれか複数を含むことを特徴とする文書校正装置。 - テキスト文書における誤りを指摘する文書校正装置を計算機によって実現するためのプログラムが記憶される計算機読み取り可能なプログラム記憶媒体であって,
テキストの各構成文字または文字列に対して所定の異なる誤り確率計算手法により誤り確率値を計算し,それぞれ計算された誤り確率値を付与する複数の誤り確率計算手段と,
前記複数の誤り確率計算手段から各々得た誤り確率値を集計し,各構成文字または文字列に対する最終的な誤り確率値を定める誤り確率保存手段と,
前記テキストの各構成文字または文字列に対して付与された誤り確率値と,外部から設定された誤り確率閾値または予め定められた誤り確率閾値との大小の比較により,誤り候補を抽出する誤り候補抽出手段と,
抽出された誤り候補を出力する誤り表示処理手段として,
前記計算機を機能させ,
かつ,前記複数の誤り確率計算手段の中に,
テキストを形態素解析して単語列に分割する形態素解析手段と,
分割された単語列のうち,所定の単語辞書に未登録の部分に対して所定の誤り確率値を付与する未登録語検出手段と,
分割された単語列に対して,その単語列が,未登録語と特定の品詞または特定の単語が並ぶパターンであって,予め解析用データとして登録されたパターンと一致するか否かを判定し,一致する場合に,前記未登録語検出手段が未登録語に対して付与した誤り確率値を低くするような負の誤り確率値を付与する特定パターン検出手段とを持つ誤り確率計算手段を有するものとして,
前記計算機を機能させるための文書校正プログラムを格納したプログラム記憶媒体。 - テキスト文書における誤りを指摘する文書校正装置を計算機によって実現するためのプログラムが記憶される計算機読み取り可能なプログラム記憶媒体であって,
テキストの各構成文字または文字列に対して所定の異なる誤り確率計算手法により誤り確率値を計算し,それぞれ計算された誤り確率値を付与する複数の誤り確率計算手段と,
前記複数の誤り確率計算手段から各々得た誤り確率値を集計し,各構成文字または文字列に対する最終的な誤り確率値を定める誤り確率保存手段と,
前記テキストの各構成文字または文字列に対して付与された誤り確率値と,外部から設定された誤り確率閾値または予め定められた誤り確率閾値との大小の比較により,誤り候補を抽出する誤り候補抽出手段と,
抽出された誤り候補を出力する誤り表示処理手段として,
前記計算機を機能させ,
かつ,前記複数の誤り確率計算手段の中に,
テキストの形態素解析によってテキストを分割することにより得られた単語列のうち,所定の単語辞書に未登録の部分に対して所定の誤り確率値を付与する未登録語検出手段と,分割された前記単語列に対して,その単語列が,未登録語と特定の品詞または特定の単語が並ぶパターンであって,予め解析用データとして登録されたパターンと一致するか否かを判定し,一致する場合に,前記未登録語検出手段が未登録語に対して付与した誤り確率値を低くするような負の誤り確率値を付与する特定パターン検出手段とを有する第1の誤り確率計算手段,
または,テキストから構成単語を抽出する語彙抽出手段と,抽出された単語群について単語間の類似度に基づき,単語相互の類似度の高い単語を同一カテゴリに分類することによりカテゴリ化を行うカテゴリ化手段と,同一カテゴリ内の各単語間の類似度および単語の出現回数に基づいて誤り確率値を付与する確率付与手段とを有する第2の誤り確率計算手段,
または,テキストを形態素解析して単語列に分割した結果に基づき,テキストを同種の文字で構成される領域に分割する領域分割処理手段と,各文字種に対する単語長の予想値を持ち,同種の文字で構成される各領域内での平均単語長と前記予想値との差に基づいてその領域に対する誤り確率を付与する確率付与手段とを有する第3の誤り確率計算手段,の少なくともいずれか複数を含むものとして,
前記計算機を機能させるための文書校正プログラムを格納したプログラム記憶媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006207617A JP4047894B2 (ja) | 1996-04-05 | 2006-07-31 | 文書校正装置およびプログラム記憶媒体 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP8344996 | 1996-04-05 | ||
JP2006207617A JP4047894B2 (ja) | 1996-04-05 | 2006-07-31 | 文書校正装置およびプログラム記憶媒体 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP08495197A Division JP4278011B2 (ja) | 1996-04-05 | 1997-04-03 | 文書校正装置およびプログラム記憶媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006338682A true JP2006338682A (ja) | 2006-12-14 |
JP4047894B2 JP4047894B2 (ja) | 2008-02-13 |
Family
ID=37559125
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006207617A Expired - Fee Related JP4047894B2 (ja) | 1996-04-05 | 2006-07-31 | 文書校正装置およびプログラム記憶媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4047894B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015056154A (ja) * | 2013-09-13 | 2015-03-23 | 独立行政法人情報通信研究機構 | テキスト編集装置及びプログラム |
-
2006
- 2006-07-31 JP JP2006207617A patent/JP4047894B2/ja not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015056154A (ja) * | 2013-09-13 | 2015-03-23 | 独立行政法人情報通信研究機構 | テキスト編集装置及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP4047894B2 (ja) | 2008-02-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7584093B2 (en) | Method and system for generating spelling suggestions | |
US8744833B2 (en) | Method and apparatus for creating a language model and kana-kanji conversion | |
EP0971294A2 (en) | Method and apparatus for automated search and retrieval processing | |
KR100999488B1 (ko) | 문서 표절 탐색 방법 및 장치 | |
WO1997004405A9 (en) | Method and apparatus for automated search and retrieval processing | |
US5940532A (en) | Apparatus for and method of recognizing hand-written characters | |
JPH09198409A (ja) | 酷似文書抽出方法 | |
Tufiş et al. | DIAC+: A professional diacritics recovering system | |
JP3361563B2 (ja) | 形態素解析装置及びキーワード抽出装置 | |
JP4278011B2 (ja) | 文書校正装置およびプログラム記憶媒体 | |
JP4047895B2 (ja) | 文書校正装置およびプログラム記憶媒体 | |
JP2000089786A (ja) | 音声認識結果の修正方法および装置 | |
JP4047894B2 (ja) | 文書校正装置およびプログラム記憶媒体 | |
JP4318223B2 (ja) | 文書校正装置およびプログラム記憶媒体 | |
JP2007122660A (ja) | 文書データ処理装置および文書データ処理プログラム | |
JP6303508B2 (ja) | 文書分析装置、文書分析システム、文書分析方法およびプログラム | |
JP2003331214A (ja) | 文字認識誤り訂正方法、装置及びプログラム | |
JP3856515B2 (ja) | 文書校正装置 | |
JP3924899B2 (ja) | テキスト検索装置およびテキスト検索方法 | |
JPS62249269A (ja) | 文書処理装置 | |
JP3241854B2 (ja) | 単語スペル自動補正装置 | |
JPH10240736A (ja) | 形態素解析装置 | |
JPH0869467A (ja) | 日本語文書処理装置 | |
JP2592993B2 (ja) | 文節切り出し装置 | |
JPH0757059A (ja) | 文字認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070612 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070810 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070828 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20071025 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20071025 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20071120 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20071122 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101130 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101130 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111130 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111130 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121130 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121130 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131130 Year of fee payment: 6 |
|
LAPS | Cancellation because of no payment of annual fees |