JP6303508B2 - 文書分析装置、文書分析システム、文書分析方法およびプログラム - Google Patents
文書分析装置、文書分析システム、文書分析方法およびプログラム Download PDFInfo
- Publication number
- JP6303508B2 JP6303508B2 JP2014001641A JP2014001641A JP6303508B2 JP 6303508 B2 JP6303508 B2 JP 6303508B2 JP 2014001641 A JP2014001641 A JP 2014001641A JP 2014001641 A JP2014001641 A JP 2014001641A JP 6303508 B2 JP6303508 B2 JP 6303508B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- typographical
- document
- words
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
次に、本発明の実施形態について、図面を参照して詳細に説明する。図1は、本発明の第1の実施形態における文書分析装置100の構成を示すブロック図である。
本発明を実施するための第2の形態における文書分析システム300の構成について、図面を参照して説明する。なお、本発明の第2の実施形態において、本発明の第1の実施形態と同様の構成については、説明を省略する。
IAij=α/√(Lij)+β×Bij (1)
ここで、αは単語間の文字列の類似性に関する重みづけ係数である。Lijは単語Wiと単語Wj間の編集距離である。√(Lij)は、(Lij)1/2である。βは文書中の各単語の出現頻度の偏りに関する重みづけ係数である。Bijは単語Wiと単語Wj間の出現頻度の偏りを示す指数である。偏りBijは、単語Wiがmi個と単語Wjがmj個間の以下の式(2)で算出される。
Bij=|mi−mj|/(mi+mj) (2)
例えば、Wiが「入荷額」及びWjが「入荷金額」である場合は、Lijは1である。また、例えば、Wiが2個及びWjが3個である場合は、Bij=|2−3|/(2+3)となり、Bijは0.2である。
S=γ/R (3)
ここで、γは、例えば、図5に示す単語情報表の抽出順位とみなすことができ、文書によらず定数を設定してもよい。また、γは、文書Dの文字数や単語数などと単調増加の関係となるように設定するのが有効である。図5のケースで、γ=4と設定した場合、下限順位Sは8となり、上位8位までが抽出する順位となる。
本発明を実施するための第3の形態における文書分析装置1000の構成について、図面を参照して説明する。なお、本発明の第3の実施形態において、本発明の第1の実施形態及び第2の実施形態と同様の構成については、説明を省略する。
誤字脱字を含む単語の組み合わせの中で誤字脱字を引き起こす要因となるパターン情報を記憶する記憶部と、
少なくとも1つの文書から前記文書が有する単語及び前記単語の組み合わせを複数含む単語情報を抽出し、前記単語情報から誤字脱字の可能性を示す誤字脱字指標を算出し、前記単語情報、前記誤字脱字指標及び前記パターン情報に基づいて、誤字脱字に関する情報を生成する分析部と、
を含む文書分析装置。
前記誤字脱字に関する情報は、少なくとも前記文書が有する正しい単語と、前記正しい単語に対応する誤字脱字を含む単語と、前記誤字脱字を含む単語に対する誤字脱字の可能性を示す前記誤字脱字指標との対応関係を含み、
前記分析部は、
前記誤字脱字に関する情報から抽出する前記対応関係の数を算出し、算出した前記対応関係の数を前記誤字脱字に関する情報に含め、前記誤字脱字指標の値の大きい順に、前記対応関係の数だけ前記対応関係を抽出する付記1に記載の文書分析装置。
前記分析部は、文書解析部と、誤字脱字指標生成部と、ノイズ情報検出部と、誤字脱字抽出条件変更部と、誤字脱字抽出部とをさらに有し、前記記憶部はノイズデータベースをさらに有し、
前記文書解析部は、前記文書が有する少なくとも1つの文章に形態素解析を適用することで前記単語情報を抽出し、
前記誤字脱字指標生成部は、前記単語情報から前記誤字脱字指標を算出し、
前記ノイズデータベースは、前記誤字脱字指標で前記誤字脱字を含む単語を検出しようとした場合に誤検出となるパターンを抽出可能にする情報を蓄積し、任意の単語の組み合わせが誤検出パターンに該当するかどうかに関する問い合わせに対し、問い合わせ対象の単語の組み合わせが誤検出パターンと一致するか否かを示す情報を応答し、
前記ノイズ情報検出部は、前記誤字脱字指標に基づき、複数の前記単語の組み合わせに対して、前記誤字脱字指標で誤検出となるパターンの有無を前記ノイズデータベースに問合せ、ノイズとなる前記単語の組み合わせをノイズ情報として検出し、
前記誤字脱字抽出条件変更部は、前記ノイズ情報を利用して所定の誤字・脱字抽出条件変更ルールに基づき、前記誤字脱字を含む単語の抽出条件を変更し、
前記誤字脱字抽出部は、前記文書内の全ての前記単語の組み合わせから、前記ノイズ情報に該当する前記単語の組み合わせを除外し、前記抽出条件に基づき、前記誤字脱字を含む単語を前記誤字脱字に関する情報として抽出する付記1又は2に記載の文書分析装置。
前記誤字脱字指標は、事前に前記文書で使用可能な単語の一覧を登録した使用単語辞書に登録された登録語と、前記文書解析部が抽出した前記単語情報に含まれる複数の単語の各々との文字列の類似性に基づき、前記類似性が近いほど値が高くなる指標である付記3に記載の文書分析装置。
前記パターン情報は、前記抽出された前記単語情報に含まれる複数の単語の各々と、前記登録語との一致状況において、前記抽出された各単語が類似する文字列があるとした登録語とは別に完全一致する登録語があるパターンを含む付記4に記載の文書分析装置。
前記誤字脱字抽出部は、前記単語の組み合わせが前記登録語又は前記抽出された前記単語の組み合わせの場合、前記抽出された前記単語を誤字脱字語として抽出することを特徴とする付記4又は5に記載の文書分析装置。
前記誤字脱字抽出部は、誤字脱字抽出条件変更ルールとして、前記誤字脱字指標に基づき、前記単語の組み合わせを前記誤字脱字指標の高い順に並べたリストを作成し、前記リストにおいて上位に並べられた前記単語の組み合わせのうち所定の数の前記単語の組み合わせ、又は、前記誤字脱字指標が一定値以上の前記単語の組み合わせにおいて、前記ノイズ情報に該当した前記単語の組み合わせの割合に対して単調減少の関係にある指標に基づき、前記抽出する前記単語の組み合わせの数を変更し、上位に並べられた前記単語の組み合わせから、前記変更した前記単語の組み合わせ数分の前記単語の組み合わせを新たに抽出し、複数の前記単語の組み合わせのうち出現頻度が低い単語を誤字脱字語として抽出する、ことを特徴とする付記3乃至6のいずれかに記載の文書分析装置。
前記誤字脱字抽出部は、前記誤字脱字抽出条件変更ルールとして、前記誤字脱字指標に基づき、前記単語の組み合わせを前記誤字脱字指標の高い順に並べたリストを作成し、前記リストにおいて上位に並べられた所定の数の前記単語の組み合わせ、又は、前記誤字脱字指標が一定値以上の前記単語の組み合わせに対して、前記ノイズ情報に該当した前記単語の組み合わせの割合に対して単調増加の関係にある指標に基づき、前記抽出する前記単語の組み合わせの前記誤字脱字指標の下限値を変更し、上位に並べられた前記単語の組み合わせから、変更した前記下限値までの組み合わせを抽出し、複数の前記単語の組み合わせのうち出現頻度が低い単語を誤字脱字語として抽出する、ことを特徴とする付記3乃至7のいずれかに記載の文書分析装置。
前記誤字脱字指標は、単語間の文字列の類似性に基づき、前記単語間の文字列の類似性が近いほど、値が高くなる指標であることを特徴とする付記1乃至8のいずれかに記載の文書分析装置。
前記誤字脱字指標は、前記文書における前記単語の出現頻度の偏りに基づき、前記文書における前記出現頻度の偏りが大きいほど、値が高くなる指標である付記1乃至9のいずれかに記載の文書分析装置。
前記パターン情報は、接辞語の語群を含み、前記単語間の文字列の類似性が近くなる接辞語が一方に付随するパターンを含む付記1乃至10のいずれかに記載の文書分析装置。
前記パターン情報は、意味が類似しない少なくとも一文字違いの熟語の組み合わせを含み、複数の名詞又は未知語を結合した複合語において前記一文字違いの熟語が異なるだけの組み合わせたパターンを含む付記1乃至11のいずれかに記載の文書分析装置。
前記文書を受け付ける入力部と、前記誤字脱字に関する情報を出力する出力部と、
をさらに有する付記1乃至12のいずれかに記載の文書分析装置。
誤字脱字を含む単語の組み合わせの中で誤字脱字を引き起こす要因となるパターン情報を含むサーバ装置と、
少なくとも1つの文書から前記文書が有する単語及び前記単語の組み合わせを複数含む単語情報を抽出し、前記単語情報から誤字脱字の可能性を示す誤字脱字指標を算出し、前記単語情報、前記誤字脱字指標及び前記パターン情報に基づいて、誤字脱字に関する情報を生成する分析部を含む文書分析装置と、
を含む文書分析システム。
誤字脱字を含む単語の組み合わせの中で誤字脱字を引き起こす要因となるパターン情報を記憶し、
少なくとも1つの文書から前記文書が有する単語及び前記単語の組み合わせを複数含む単語情報を抽出し、前記単語情報から誤字脱字の可能性を示す誤字脱字指標を算出し、前記単語情報、前記誤字脱字指標及び前記パターン情報に基づいて、誤字脱字に関する情報を生成する文書分析方法。
誤字脱字を含む単語の組み合わせの中で誤字脱字を引き起こす要因となるパターン情報を記憶する処理と、
少なくとも1つの文書から前記文書が有する単語及び前記単語の組み合わせを複数含む単語情報を抽出し、前記単語情報から誤字脱字の可能性を示す誤字脱字指標を算出し、前記単語情報、前記誤字脱字指標及び前記パターン情報に基づいて、誤字脱字に関する情報を生成する処理と、
をコンピュータに実行させるプログラム。
2 RAM
3 記憶装置
4 通信インターフェース
5 入力装置
6 出力装置
10 入力部
20 分析部
20’ 分析部
21 文書解析部
22 誤字脱字指標生成部
23 ノイズ情報検出部
24 誤字脱字抽出条件変更部
25 誤字脱字抽出部
30 出力部
40 ノイズデータベース
100 文書分析装置
100’ 文書分析装置
110 サーバ装置
200 分析部
300 文書分析システム
1000 文書分析装置
Claims (10)
- 誤検出となる文字または単語の誤検出パターンを記憶する記憶部と、
少なくとも1つの文書から前記文書が有する単語及び前記単語の組み合わせを含む単語情報を抽出する文書解析部と、
前記単語情報に含まれる単語間の文字列の類似性、および、前記文書における前記単語の出現頻度の偏りに基づき、前記単語の組み合わせにおける誤字脱字の可能性を示す誤字度を算出し、誤字脱字指標とする誤字脱字指標生成部と、
前記単語の組み合わせに対し、前記誤検出パターンを用いて前記誤検出となる文字または単語を含む前記単語の組み合わせをノイズ情報として検出するノイズ情報検出部と、
前記誤字脱字指標に応じて前記単語の組み合わせから前記ノイズ情報を除外して誤字脱字語を抽出する誤字脱字抽出部と、
を備える文書分析装置。 - 前記誤字脱字抽出部が前記誤字脱字語を抽出するための抽出条件を変更する誤字脱字抽出条件変更部を、更に備える、
請求項1に記載の文書分析装置。 - 前記抽出条件が、前記誤字脱字指標の高い順に並べられた前記単語の組み合わせのうち、上位の前記単語の組み合わせからの抽出である、
請求項2に記載の文書分析装置。 - 前記ノイズ情報は、前記単語の組み合わせの一方に接辞語が付いた組み合わせ、又は、複数の名詞や未知語を結合した複合語であって一文字違いの熟語が異なるだけの組み合わせである、
請求項1乃至3のいずれか1つに記載の文書分析装置。 - 前記単語情報に含まれる前記単語間の文字列の類似性の代わりに、事前に前記文書に使用した単語の一覧を登録した使用単語辞書に登録された登録語と前記単語情報に含まれる単語との文字列の類似性を用いる、
請求項1乃至3のいずれか1つに記載の文書分析装置。 - 前記記憶部は、前記単語情報に含まれる単語の文字列に類似する登録語とは別に完全一致する登録語があるとする誤検出パターンを記憶する、
請求項5に記載の文書分析装置。 - 前記抽出した誤字脱字語と、前記抽出した誤字脱字語に対応する誤字脱字指標を出力する出力部を更に備える、
請求項1乃至6のいずれか1つに記載の文書分析装置。 - 誤検出となる文字または単語の誤検出パターンを記憶するサーバ装置と、
文書分析装置と、を備え、
前記文書分析装置は、
少なくとも1つの文書から前記文書が有する単語及び前記単語の組み合わせを含む単語情報を抽出する文書解析部と、
前記単語情報に含まれる単語間の文字列の類似性、および、前記文書における前記単語の出現頻度の偏りに基づき、前記単語の組み合わせにおける誤字脱字の可能性を示す誤字度を算出し、誤字脱字指標とする誤字脱字指標生成部と、
前記単語の組み合わせに対し、前記誤検出パターンを用いて前記誤検出となる文字または単語を含む前記単語の組み合わせをノイズ情報として検出するノイズ情報検出部と、
前記単語の組み合わせから前記ノイズ情報を除外して誤字脱字語を抽出する誤字脱字抽出部と、を備える、
文書分析システム。 - 誤検出となる文字または単語の誤検出パターンを記憶し、
少なくとも1つの文書から前記文書が有する単語及び前記単語の組み合わせを含む単語情報を抽出し、
前記単語情報に含まれる単語間の文字列の類似性、および、前記文書における前記単語の出現頻度の偏りに基づき、前記単語の組み合わせにおける誤字脱字の可能性を示す誤字度を算出して誤字脱字指標とし、
前記単語の組み合わせに対し、前記誤検出パターンを用いて前記誤検出となる文字または単語を含む前記単語の組み合わせをノイズ情報として検出し、
前記単語の組み合わせから前記ノイズ情報を除外して誤字脱字語を抽出する、
文書分析方法。 - 誤検出となる文字または単語の誤検出パターンを記憶し、
少なくとも1つの文書から前記文書が有する単語及び前記単語の組み合わせを含む単語情報を抽出し、
前記単語情報に含まれる単語間の文字列の類似性、および、前記文書における前記単語の出現頻度の偏りに基づき、前記単語の組み合わせにおける誤字脱字の可能性を示す誤字度を算出して誤字脱字指標とし、
前記単語の組み合わせに対し、前記誤検出パターンを用いて前記誤検出となる文字または単語を含む前記単語の組み合わせをノイズ情報として検出し、
前記単語の組み合わせから前記ノイズ情報を除外して誤字脱字語を抽出する、
ことコンピュータに実行させるプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014001641A JP6303508B2 (ja) | 2014-01-08 | 2014-01-08 | 文書分析装置、文書分析システム、文書分析方法およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014001641A JP6303508B2 (ja) | 2014-01-08 | 2014-01-08 | 文書分析装置、文書分析システム、文書分析方法およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015130102A JP2015130102A (ja) | 2015-07-16 |
JP6303508B2 true JP6303508B2 (ja) | 2018-04-04 |
Family
ID=53760768
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014001641A Active JP6303508B2 (ja) | 2014-01-08 | 2014-01-08 | 文書分析装置、文書分析システム、文書分析方法およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6303508B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10585922B2 (en) | 2018-05-23 | 2020-03-10 | International Business Machines Corporation | Finding a resource in response to a query including unknown words |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6484367A (en) * | 1987-09-26 | 1989-03-29 | Toshiba Corp | Document forming device |
JPH0793328A (ja) * | 1993-09-24 | 1995-04-07 | Matsushita Electric Ind Co Ltd | 綴り不適切訂正装置 |
JP4318223B2 (ja) * | 1996-04-05 | 2009-08-19 | 富士通株式会社 | 文書校正装置およびプログラム記憶媒体 |
JP3919968B2 (ja) * | 1999-03-10 | 2007-05-30 | 富士通株式会社 | 文書校正装置 |
-
2014
- 2014-01-08 JP JP2014001641A patent/JP6303508B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2015130102A (ja) | 2015-07-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6187877B2 (ja) | 同義語抽出システム、方法および記録媒体 | |
KR101544690B1 (ko) | 단어 분할 장치, 단어 분할 방법 및 단어 분할 프로그램 | |
JP6404511B2 (ja) | 翻訳支援システム、翻訳支援方法、および翻訳支援プログラム | |
JP5809381B1 (ja) | 自然言語処理システム、自然言語処理方法、および自然言語処理プログラム | |
US8219905B2 (en) | Automatically detecting keyboard layout in order to improve the quality of spelling suggestions | |
Jain et al. | “UTTAM” An Efficient Spelling Correction System for Hindi Language Based on Supervised Learning | |
Uthayamoorthy et al. | Ddspell-a data driven spell checker and suggestion generator for the tamil language | |
JP6108212B2 (ja) | 同義語抽出システム、方法およびプログラム | |
US11842152B2 (en) | Sentence structure vectorization device, sentence structure vectorization method, and storage medium storing sentence structure vectorization program | |
Tufiş et al. | DIAC+: A professional diacritics recovering system | |
Ganfure et al. | Design and implementation of morphology based spell checker | |
WO2014002774A1 (ja) | 同義語抽出システム、方法および記録媒体 | |
JP5097802B2 (ja) | ローマ字変換を用いる日本語自動推薦システムおよび方法 | |
US20110229036A1 (en) | Method and apparatus for text and error profiling of historical documents | |
Kumar et al. | Design and implementation of nlp-based spell checker for the tamil language | |
Singh et al. | Handling real-word errors of hindi language using n-gram and confusion set | |
JP6303508B2 (ja) | 文書分析装置、文書分析システム、文書分析方法およびプログラム | |
KR102519955B1 (ko) | 토픽 키워드의 추출 장치 및 방법 | |
JP4047895B2 (ja) | 文書校正装置およびプログラム記憶媒体 | |
JP3952964B2 (ja) | 読み情報決定方法及び装置及びプログラム | |
JP4047894B2 (ja) | 文書校正装置およびプログラム記憶媒体 | |
JP7326637B2 (ja) | チャンキング実行システム、チャンキング実行方法、及びプログラム | |
JP4318223B2 (ja) | 文書校正装置およびプログラム記憶媒体 | |
Kovács | Efficient dictionary matching of character stream | |
Vayadande et al. | Spell Checker Model for String Comparison in Automata |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20161214 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20171024 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20171031 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20171227 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180116 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180125 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180206 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180219 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6303508 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |