JP2020135126A - 校閲方法、情報処理装置および校閲プログラム - Google Patents
校閲方法、情報処理装置および校閲プログラム Download PDFInfo
- Publication number
- JP2020135126A JP2020135126A JP2019024652A JP2019024652A JP2020135126A JP 2020135126 A JP2020135126 A JP 2020135126A JP 2019024652 A JP2019024652 A JP 2019024652A JP 2019024652 A JP2019024652 A JP 2019024652A JP 2020135126 A JP2020135126 A JP 2020135126A
- Authority
- JP
- Japan
- Prior art keywords
- word
- abbreviation
- prototype
- determined
- text data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 39
- 238000000034 method Methods 0.000 title claims description 43
- 238000012937 correction Methods 0.000 claims abstract description 12
- 239000000284 extract Substances 0.000 claims abstract description 11
- 238000000605 extraction Methods 0.000 claims description 38
- 238000012552 review Methods 0.000 claims description 13
- 238000011161 development Methods 0.000 description 45
- 238000010586 diagram Methods 0.000 description 16
- 238000012545 processing Methods 0.000 description 15
- 230000010076 replication Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 2
- 230000001915 proofreading effect Effects 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】情報処理装置10は、テキストデータから略語と原型語のペアを抽出し、ペアの略語および原型語の出現回数をそれぞれ計数し、略語の出現回数と原型語の出現回数のうち、どちらの出現回数多いかを判定し、判定結果を判定テーブル記憶部14aに格納する。そして、情報処理装置10は、判定テーブル記憶部14aに格納された判定結果を参照し、校閲対象のテキストデータに含まれる単語に、出現回数が少ないと判定された略語または原型語が含まれるか判定し、出現回数が少ないと判定された略語または原型語が含まれると判定した場合には、該単語を修正対象の単語として特定する。
【選択図】図1
Description
以下の実施の形態では、第1の実施形態に係る情報処理装置10の構成、情報処理装置10の処理の流れを順に説明し、最後に第1の実施形態による効果を説明する。
まず、図1を用いて、本実施形態の情報処理装置10の構成例を説明する。図1は、第1の実施形態に係る情報処理装置の構成例を示すブロック図である。図1に例示する情報処理装置10は、過去の開発文書のテキストデータから略語と原型語のペアを作成し、略語と原型語の出現頻度をそれぞれ求め、多い方を正解の単語、少ない方を誤りの単語とする。そして、情報処理装置10は、校閲対象の新規ドキュメントの文書において、誤りの単語の方が使用されている場合には、正解の単語に修正する。
ルール1:名詞Aに含まれる全ての文字が、名詞Bに同じ順序で出現する。
ルール2:名詞A(略語候補)と名詞B(原型語候補)の先頭の文字列が同じである。
次に、図7および図8を用いて、第1の実施形態に係る情報処理装置10による処理手順の例を説明する。図7は、第1の実施形態に係る情報処理装置における判定テーブル格納処理の流れの一例を示すフローチャートである。図8は、第1の実施形態に係る情報処理装置における校閲処理の流れの一例を示すフローチャートである。
第1の実施形態に係る情報処理装置10は、テキストデータから略語と原型語のペアを抽出し、ペアの略語および原型語の出現回数をそれぞれ計数し、略語の出現回数と原型語の出現回数のうち、どちらの出現回数多いかを判定し、判定結果を判定テーブル記憶部14aに格納する。そして、情報処理装置10は、判定テーブル記憶部14aに格納された判定結果を参照し、校閲対象のテキストデータに含まれる単語に、出現回数が少ないと判定された略語または原型語が含まれるか判定し、出現回数が少ないと判定された略語または原型語が含まれると判定した場合には、該単語を修正対象の単語として特定する。このため、情報処理装置10は、表記揺れがあるテキストデータを修正するための稼働を削減することが可能である。
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、CPUおよび当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
また、上記実施形態において説明した情報処理装置が実行する処理をコンピュータが実行可能な言語で記述したプログラムを作成することもできる。例えば、実施形態に係る情報処理装置10が実行する処理をコンピュータが実行可能な言語で記述した校閲プログラムを作成することもできる。この場合、コンピュータが校閲プログラムを実行することにより、上記実施形態と同様の効果を得ることができる。さらに、かかる校閲プログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録された校閲プログラムをコンピュータに読み込ませて実行することにより上記実施形態と同様の処理を実現してもよい。
11 入力部
12 出力部
13 制御部
13a 抽出部
13b 計数部
13c 判定部
13d 修正部
14 記憶部
14a 判定テーブル記憶部
Claims (6)
- 情報処理装置によって実行される校閲方法であって、
テキストデータから略語と原型語のペアを抽出する抽出工程と、
前記抽出工程によって抽出されたペアの略語および原型語の出現回数をそれぞれ計数し、略語の出現回数と原型語の出現回数のうち、どちらの出現回数多いかを判定し、判定結果を記憶部に格納する計数工程と、
前記記憶部に格納された判定結果を参照し、校閲対象のテキストデータに含まれる単語に、前記計数工程によって出現回数が少ないと判定された略語または原型語が含まれるか判定し、出現回数が少ないと判定された略語または原型語が含まれると判定した場合には、該単語を修正対象の単語として特定する判定工程と
を含むことを特徴とする校閲方法。 - 前記判定工程によって特定された修正対象の単語が略語である場合には、該略語に対応する原型語に修正し、前記修正対象の単語が原型語である場合には、該原型語に対応する略語に修正する修正工程をさらに含むことを特徴とする請求項1に記載の校閲方法。
- 前記判定工程によって特定された修正対象の単語を出力する出力工程をさらに含むことを特徴とする請求項1に記載の校閲方法。
- 前記抽出工程は、前記テキストデータに含まれる第一の名詞に含まれるすべての文字が、前記テキストデータに含まれる第二の名詞に同じ順序で出現し、かつ、前記第一の名詞と前記第二の名詞の先頭の文字列が同じである場合に、前記第一の名詞を略語、前記第二の名詞を原型語とするペアとして抽出することを特徴とする請求項1に記載の校閲方法。
- テキストデータから略語と原型語のペアを抽出する抽出部と、
前記抽出部によって抽出されたペアの略語および原型語の出現回数をそれぞれ計数し、略語の出現回数と原型語の出現回数のうち、どちらの出現回数多いかを判定し、判定結果を記憶部に格納する計数部と、
前記記憶部に格納された判定結果を参照し、校閲対象のテキストデータに含まれる単語に、前記計数部によって出現回数が少ないと判定された略語または原型語が含まれるか判定し、出現回数が少ないと判定された略語または原型語が含まれると判定した場合には、該単語を修正対象の単語として特定する判定部と
を有することを特徴とする情報処理装置。 - テキストデータから略語と原型語のペアを抽出する抽出ステップと、
前記抽出ステップによって抽出されたペアの略語および原型語の出現回数をそれぞれ計数し、略語の出現回数と原型語の出現回数のうち、どちらの出現回数多いかを判定し、判定結果を記憶部に格納する計数ステップと、
前記記憶部に格納された判定結果を参照し、校閲対象のテキストデータに含まれる単語に、前記計数ステップによって出現回数が少ないと判定された略語または原型語が含まれるか判定し、出現回数が少ないと判定された略語または原型語が含まれると判定した場合には、該単語を修正対象の単語として特定する判定ステップと
をコンピュータに実行させることを特徴とする校閲プログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019024652A JP7211139B2 (ja) | 2019-02-14 | 2019-02-14 | 校閲方法、情報処理装置および校閲プログラム |
PCT/JP2020/003801 WO2020166397A1 (ja) | 2019-02-14 | 2020-01-31 | 校閲方法、情報処理装置および校閲プログラム |
US17/430,089 US20220138406A1 (en) | 2019-02-14 | 2020-01-31 | Reviewing method, information processing device, and reviewing program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019024652A JP7211139B2 (ja) | 2019-02-14 | 2019-02-14 | 校閲方法、情報処理装置および校閲プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020135126A true JP2020135126A (ja) | 2020-08-31 |
JP7211139B2 JP7211139B2 (ja) | 2023-01-24 |
Family
ID=72045422
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019024652A Active JP7211139B2 (ja) | 2019-02-14 | 2019-02-14 | 校閲方法、情報処理装置および校閲プログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20220138406A1 (ja) |
JP (1) | JP7211139B2 (ja) |
WO (1) | WO2020166397A1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116502614B (zh) * | 2023-06-26 | 2023-09-01 | 北京每日信动科技有限公司 | 一种数据校对方法、系统及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6441963A (en) * | 1987-08-07 | 1989-02-14 | Hitachi Ltd | Calibration supporting system |
JPH03244071A (ja) * | 1990-02-22 | 1991-10-30 | Toshiba Corp | 文書校正支援システム |
JP2008234174A (ja) * | 2007-03-19 | 2008-10-02 | Nec Corp | 文書参照関係抽出システム、表現統一化システム、文書伝達評価システム、方法及びプログラム |
Family Cites Families (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE3577937D1 (de) * | 1984-11-16 | 1990-06-28 | Canon Kk | Wortverarbeitungsgeraet. |
US5675821A (en) * | 1984-11-16 | 1997-10-07 | Canon Kabushiki Kaisha | Document processing apparatus and method |
US5774833A (en) * | 1995-12-08 | 1998-06-30 | Motorola, Inc. | Method for syntactic and semantic analysis of patent text and drawings |
US6023670A (en) * | 1996-08-19 | 2000-02-08 | International Business Machines Corporation | Natural language determination using correlation between common words |
US8726148B1 (en) * | 1999-09-28 | 2014-05-13 | Cloanto Corporation | Method and apparatus for processing text and character data |
JP3768105B2 (ja) * | 2001-01-29 | 2006-04-19 | 株式会社東芝 | 翻訳装置、翻訳方法並びに翻訳プログラム |
US7483829B2 (en) * | 2001-07-26 | 2009-01-27 | International Business Machines Corporation | Candidate synonym support device for generating candidate synonyms that can handle abbreviations, mispellings, and the like |
US20040008368A1 (en) * | 2001-09-07 | 2004-01-15 | Plunkett Michael K | Mailing online operation flow |
US7131117B2 (en) * | 2002-09-04 | 2006-10-31 | Sbc Properties, L.P. | Method and system for automating the analysis of word frequencies |
WO2004112301A2 (en) * | 2003-06-11 | 2004-12-23 | Wtviii, Inc. | Mark up language authoring system |
US20070055639A1 (en) * | 2005-08-26 | 2007-03-08 | Lee Garvey | Method and system for printing self-mailer including color-postal form |
US7848918B2 (en) * | 2006-10-04 | 2010-12-07 | Microsoft Corporation | Abbreviation expansion based on learned weights |
KR101589951B1 (ko) * | 2009-12-23 | 2016-01-29 | 그래댈리스, 인코포레이티드 | 푸린―녹다운 및 gm―csf―증강된 (fang) 암 백신 |
US20120254333A1 (en) * | 2010-01-07 | 2012-10-04 | Rajarathnam Chandramouli | Automated detection of deception in short and multilingual electronic messages |
GB2493875A (en) * | 2010-04-26 | 2013-02-20 | Trustees Of Stevens Inst Of Technology | Systems and methods for automatically detecting deception in human communications expressed in digital form |
EA028049B1 (ru) * | 2011-12-28 | 2017-10-31 | Поузен Инк. | Улучшенные композиции и способы доставки омепразола и ацетилсалициловой кислоты |
US9582555B2 (en) * | 2012-09-06 | 2017-02-28 | Sap Se | Data enrichment using business compendium |
WO2015084883A2 (en) * | 2013-12-02 | 2015-06-11 | Abbvie, Inc. | Compositions and methods for treating osteoarthritis |
US20150291689A1 (en) * | 2014-03-09 | 2015-10-15 | Abbvie, Inc. | Compositions and Methods for Treating Rheumatoid Arthritis |
US20160244520A1 (en) * | 2015-01-24 | 2016-08-25 | Abbvie Inc. | Compositions and methods for treating psoriatic arthritis |
US11514096B2 (en) * | 2015-09-01 | 2022-11-29 | Panjiva, Inc. | Natural language processing for entity resolution |
US10918672B1 (en) * | 2016-04-07 | 2021-02-16 | The Administrators Of The Tulane Educational Fund | Small tissue CCR5−MSCs for treatment of HIV |
US10366461B2 (en) * | 2017-03-06 | 2019-07-30 | Aon Risk Services, Inc. Of Maryland | Automated document analysis for varying natural languages |
-
2019
- 2019-02-14 JP JP2019024652A patent/JP7211139B2/ja active Active
-
2020
- 2020-01-31 WO PCT/JP2020/003801 patent/WO2020166397A1/ja active Application Filing
- 2020-01-31 US US17/430,089 patent/US20220138406A1/en not_active Abandoned
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6441963A (en) * | 1987-08-07 | 1989-02-14 | Hitachi Ltd | Calibration supporting system |
JPH03244071A (ja) * | 1990-02-22 | 1991-10-30 | Toshiba Corp | 文書校正支援システム |
JP2008234174A (ja) * | 2007-03-19 | 2008-10-02 | Nec Corp | 文書参照関係抽出システム、表現統一化システム、文書伝達評価システム、方法及びプログラム |
Non-Patent Citations (1)
Title |
---|
酒井 浩之、増山 繁: "企業の業績発表記事からの業績要因の抽出", 言語処理学会第13回年次大会発表論文集, JPN6022027807, 19 March 2007 (2007-03-19), JP, pages 436 - 439, ISSN: 0004817548 * |
Also Published As
Publication number | Publication date |
---|---|
JP7211139B2 (ja) | 2023-01-24 |
WO2020166397A1 (ja) | 2020-08-20 |
US20220138406A1 (en) | 2022-05-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3973549B2 (ja) | 対訳依存構造対応付け装置、方法及びプログラム、並びに、対訳依存構造対応付けプログラムを記録した記録媒体 | |
US6047300A (en) | System and method for automatically correcting a misspelled word | |
CN107608963A (zh) | 一种基于互信息的中文纠错方法、装置、设备及存储介质 | |
CN110263311B (zh) | 一种网络页面的生成方法及设备 | |
US20100204977A1 (en) | Real-time translation system that automatically distinguishes multiple languages and the method thereof | |
KR20000035018A (ko) | 음성 인식을 위한 부 어휘집 지정 방법 및 시스템 | |
WO2021169626A1 (zh) | 基于词库的匹配推荐方法、装置、设备及存储介质 | |
CN114330251B (zh) | 文本生成方法、模型的训练方法、设备及存储介质 | |
CN112651217B (zh) | 论文文档的处理方法、处理装置、电子设备及存储介质 | |
CN111554295B (zh) | 文本纠错方法、相关设备及可读存储介质 | |
JP2020135126A (ja) | 校閲方法、情報処理装置および校閲プログラム | |
CN112733517B (zh) | 需求模板符合性检查的方法、电子设备及存储介质 | |
CN111553130A (zh) | 一种章节标题样式转换方法、装置、电子设备及存储介质 | |
Reynaert | TICCLops: Text-Induced Corpus Clean-up as online processing system | |
CN111950267A (zh) | 文本三元组的抽取方法及装置、电子设备及存储介质 | |
JP5921601B2 (ja) | 音声認識辞書更新装置、音声認識辞書更新方法、プログラム | |
JP6568968B2 (ja) | 文書校閲装置およびプログラム | |
CN117422064A (zh) | 搜索文本纠错方法、装置、计算机设备及存储介质 | |
EP3719676A1 (en) | Language processing method and device | |
KR101523842B1 (ko) | 번역 관리 방법 및 시스템 | |
Dembitz et al. | Advantages of online spellchecking: a Croatian example | |
JP6578841B2 (ja) | 難読化装置、方法およびプログラム | |
JP7253951B2 (ja) | 自然言語データ処理装置およびプログラム | |
CN114528824A (zh) | 文本纠错方法、装置、电子设备及存储介质 | |
US20180011833A1 (en) | Syntax analyzing device, learning device, machine translation device and storage medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210602 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220705 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220905 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20221213 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20221226 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7211139 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |