JP2019145023A - 文書校閲装置およびプログラム - Google Patents
文書校閲装置およびプログラム Download PDFInfo
- Publication number
- JP2019145023A JP2019145023A JP2018031035A JP2018031035A JP2019145023A JP 2019145023 A JP2019145023 A JP 2019145023A JP 2018031035 A JP2018031035 A JP 2018031035A JP 2018031035 A JP2018031035 A JP 2018031035A JP 2019145023 A JP2019145023 A JP 2019145023A
- Authority
- JP
- Japan
- Prior art keywords
- document
- typographical
- character
- mismatch
- calculated
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 claims abstract description 41
- 238000000605 extraction Methods 0.000 claims abstract description 16
- 238000010801 machine learning Methods 0.000 claims abstract description 14
- 238000012553 document review Methods 0.000 claims description 41
- 239000000284 extract Substances 0.000 claims description 13
- 238000012937 correction Methods 0.000 claims description 10
- 230000006870 function Effects 0.000 claims description 2
- 238000012552 review Methods 0.000 claims description 2
- 238000010276 construction Methods 0.000 abstract description 6
- 238000004891 communication Methods 0.000 description 12
- 238000000034 method Methods 0.000 description 6
- 239000013598 vector Substances 0.000 description 6
- 230000002457 bidirectional effect Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000008094 contradictory effect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
Landscapes
- Machine Translation (AREA)
Abstract
Description
機械学習によって、文章中の誤字を検出するための誤字検出モデルを構築するモデル構築部と、
前記誤字検出モデルを用いて、前記対象文書に含まれる誤字脱字の情報を抽出する誤字脱字抽出部と、
前記対象文書に含まれる複数の単語間の関連性を解析し、文書内不一致を抽出する文書内不一致抽出部と、を備えたものである。
図1は、本実施形態に係る文書校閲システム1の構成を示す図である。
図1に示すように、文書校閲システム1は、文書校閲サーバ(文書校閲装置)10と、端末20を含んでいる。文書校閲サーバ10と端末20は、通信ネットワークNを介して接続される。通信ネットワークNは、例えば、インターネット、LAN、専用線、電話回線、企業内ネットワーク、移動体通信網、ブルートゥース(登録商標)、WiFi(Wireless Fidelity)、その他の通信回線、それらの組み合わせ等のいずれであってもよく、有線であるか無線であるかを問わない。また、端末20は複数含まれていてもよい。
次に、本実施形態による誤字検出モデルの構築について、図2のフローチャートを用いて説明する。
次に、本実施形態による誤字脱字の検出処理について、図4のフローチャートを用いて説明する。
次に、本実施形態による文書内不一致の検出処理について、図6のフローチャートを用いて説明する。
10…文書校閲サーバ
11…制御装置
12…外部記憶装置
20…端末
201…プロセッサ
202…入力装置
203…表示装置
204…通信インタフェース
205…記憶資源
N…通信ネットワーク
Claims (6)
- 対象文書の校閲を行う文書校閲装置であって、
機械学習によって、文章中の誤字を検出するための誤字検出モデルを構築するモデル構築部と、
前記誤字検出モデルを用いて、前記対象文書に含まれる誤字脱字の情報を抽出する誤字脱字抽出部と、
前記対象文書に含まれる複数の単語間の関連性を解析し、文書内不一致を抽出する文書内不一致抽出部と、を備えた文書校閲装置。 - 前記誤字脱字抽出部は、
前記対象文書の各文字の出現確率を、前後の文脈に基づいて計算し、出現確率が一定値以下の文字を誤字と判定して抽出する、請求項1に記載の文書校閲装置。 - 誤字と判定された前記文字について、より出願確率の高い文字を修正候補として提示する修正候補提示部を備えた請求項2に記載の文書校閲装置。
- 前記文書内不一致抽出部は、
前記対象文書に含まれる2つの単語間の類似度を機械学習によって構築した文書内不一致検出モデルを用いて算出し、算出した類似度が所定の閾値以上の場合には、当該2つの単語を文書内不一致として抽出する、請求項1から3のいずれか1項に記載の文書校閲装置。 - 前記文書内不一致抽出部は、
前記対象文書に含まれる2つの固有名詞間の編集距離を算出し、算出した編集距離がゼロではなく、且つ所定の閾値以内の場合には、2つの固有名詞を文書内不一致として抽出し、
前記対象文書に含まれる読み方が一致する2つの一般名詞間の類似度を、前記文書内不一致検出モデルを用いて算出し、算出した類似度が所定の閾値以上の場合には、当該2つの一般名詞を文書内不一致として抽出する、請求項4に記載の文書校閲装置。 - 対象文書の校閲を行うコンピュータを、
機械学習によって、文章中の誤字を検出するための誤字検出モデルを構築するモデル構築部と、
前記誤字検出モデルを用いて、前記対象文書に含まれる誤字脱字の情報を抽出する誤字脱字抽出部と、
前記対象文書に含まれる複数の単語間の関連性を解析し、文書内不一致を抽出する文書内不一致抽出部と、して機能させるプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018031035A JP6568968B2 (ja) | 2018-02-23 | 2018-02-23 | 文書校閲装置およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018031035A JP6568968B2 (ja) | 2018-02-23 | 2018-02-23 | 文書校閲装置およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP6568968B2 JP6568968B2 (ja) | 2019-08-28 |
JP2019145023A true JP2019145023A (ja) | 2019-08-29 |
Family
ID=67766703
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018031035A Active JP6568968B2 (ja) | 2018-02-23 | 2018-02-23 | 文書校閲装置およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6568968B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021241697A1 (ja) * | 2020-05-29 | 2021-12-02 | 株式会社クオリティア | 電子メッセージ翻訳分析システム |
KR20210154755A (ko) * | 2020-06-11 | 2021-12-21 | 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. | 문자 오류 수정 방법, 장치, 전자 기기 및 기록 매체 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6358570A (ja) * | 1986-08-29 | 1988-03-14 | Nippon Telegr & Teleph Corp <Ntt> | 日本文誤字自動検出方式 |
JP2003196636A (ja) * | 2001-12-26 | 2003-07-11 | Communication Research Laboratory | 教師あり機械学習法を用いた表記誤り検出処理方法、その処理装置、およびその処理プログラム |
JP2005352888A (ja) * | 2004-06-11 | 2005-12-22 | Hitachi Ltd | 表記揺れ対応辞書作成システム |
US20160063094A1 (en) * | 2014-08-28 | 2016-03-03 | Microsoft Corporation | Spelling Correction of Email Queries |
CN107357775A (zh) * | 2017-06-05 | 2017-11-17 | 百度在线网络技术(北京)有限公司 | 基于人工智能的循环神经网络的文本纠错方法及装置 |
-
2018
- 2018-02-23 JP JP2018031035A patent/JP6568968B2/ja active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6358570A (ja) * | 1986-08-29 | 1988-03-14 | Nippon Telegr & Teleph Corp <Ntt> | 日本文誤字自動検出方式 |
JP2003196636A (ja) * | 2001-12-26 | 2003-07-11 | Communication Research Laboratory | 教師あり機械学習法を用いた表記誤り検出処理方法、その処理装置、およびその処理プログラム |
JP2005352888A (ja) * | 2004-06-11 | 2005-12-22 | Hitachi Ltd | 表記揺れ対応辞書作成システム |
US20160063094A1 (en) * | 2014-08-28 | 2016-03-03 | Microsoft Corporation | Spelling Correction of Email Queries |
CN107357775A (zh) * | 2017-06-05 | 2017-11-17 | 百度在线网络技术(北京)有限公司 | 基于人工智能的循环神经网络的文本纠错方法及装置 |
Non-Patent Citations (5)
Title |
---|
しだみえ: "ソフト買いたい新書 第1回", YOMIURI PC, vol. 第11巻第2号, JPN6019008485, 1 February 2006 (2006-02-01), JP, pages 76 - 79, ISSN: 0003994889 * |
仙田 明広: "ワープロステップアップ講座 校正機能を使えば文書のチェックも簡単に", 日経PC21, vol. 第5巻第23号, JPN6019008489, 1 December 2000 (2000-12-01), JP, pages 167, ISSN: 0003994893 * |
佐藤 政伸 外3名: "マルコフ連鎖モデルを用いた日本語文誤り検出法の改善", 電子情報通信学会技術研究報告, vol. 第100巻第401号, JPN6019008487, 20 October 2000 (2000-10-20), JP, pages 1 - 7, ISSN: 0003994891 * |
河田 岳大 外3名: "両方向N−gram確率を用いた誤り文字検出法", 電子情報通信学会論文誌 (J88−D−II), vol. 第J88-D-II巻第3号, JPN6019008486, 1 March 2005 (2005-03-01), JP, pages 629 - 635, ISSN: 0003994890 * |
荒牧 英治 外2名: "TYPO Writer ヒトはどのように打ち間違えるのか?", 言語処理学会第16回年次大会発表論文集, JPN6019008488, 8 March 2010 (2010-03-08), JP, pages 966 - 969, ISSN: 0003994892 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021241697A1 (ja) * | 2020-05-29 | 2021-12-02 | 株式会社クオリティア | 電子メッセージ翻訳分析システム |
JP2021189794A (ja) * | 2020-05-29 | 2021-12-13 | 株式会社クオリティア | 電子メッセージ翻訳分析システム |
JP7497552B2 (ja) | 2020-05-29 | 2024-06-11 | 株式会社クオリティア | 電子メッセージ翻訳分析システム |
KR20210154755A (ko) * | 2020-06-11 | 2021-12-21 | 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. | 문자 오류 수정 방법, 장치, 전자 기기 및 기록 매체 |
JP2021197175A (ja) * | 2020-06-11 | 2021-12-27 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | 文字誤り訂正方法、装置、電子デバイス及び記憶媒体 |
US11443100B2 (en) | 2020-06-11 | 2022-09-13 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and apparatus for correcting character errors, electronic device and storage medium |
KR102541054B1 (ko) | 2020-06-11 | 2023-06-05 | 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. | 문자 오류 수정 방법, 장치, 전자 기기 및 기록 매체 |
Also Published As
Publication number | Publication date |
---|---|
JP6568968B2 (ja) | 2019-08-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11151130B2 (en) | Systems and methods for assessing quality of input text using recurrent neural networks | |
CN110765763B (zh) | 语音识别文本的纠错方法、装置、计算机设备和存储介质 | |
US11636264B2 (en) | Stylistic text rewriting for a target author | |
US20210157984A1 (en) | Intelligent system that dynamically improves its knowledge and code-base for natural language understanding | |
US20230142217A1 (en) | Model Training Method, Electronic Device, And Storage Medium | |
US11762926B2 (en) | Recommending web API's and associated endpoints | |
US20190286691A1 (en) | Caption Association Techniques | |
US10803241B2 (en) | System and method for text normalization in noisy channels | |
CN111626048A (zh) | 文本纠错方法、装置、设备及存储介质 | |
US10402474B2 (en) | Keyboard input corresponding to multiple languages | |
CN111680159A (zh) | 数据处理方法、装置及电子设备 | |
US20220147835A1 (en) | Knowledge graph construction system and knowledge graph construction method | |
TWI567569B (zh) | Natural language processing systems, natural language processing methods, and natural language processing programs | |
CN110866098A (zh) | 基于transformer和lstm的机器阅读方法、装置及可读存储介质 | |
CN104239289A (zh) | 音节划分方法和音节划分设备 | |
CN116702723A (zh) | 一种合同段落标注模型的训练方法、装置及设备 | |
JP6568968B2 (ja) | 文書校閲装置およびプログラム | |
CN110516125B (zh) | 识别异常字符串的方法、装置、设备及可读存储介质 | |
CN111814496A (zh) | 文本处理方法、装置、设备及存储介质 | |
US8244732B2 (en) | Named entity marking apparatus, named entity marking method, and computer readable medium thereof | |
CN110083817B (zh) | 一种命名排歧方法、装置、计算机可读存储介质 | |
US20210200796A1 (en) | Search word suggestion device, method for generating unique expression informaton, and program for generating unique expression information | |
CN114064845A (zh) | 关系表示模型的训练方法、装置及电子设备 | |
JP2021018520A (ja) | 情報処理装置、情報処理方法及びプログラム | |
US20180033425A1 (en) | Evaluation device and evaluation method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20181129 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20181129 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20181212 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20190110 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190312 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190426 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190709 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190805 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6568968 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |