JP5982162B2 - 校閲支援システムおよびプログラム - Google Patents
校閲支援システムおよびプログラム Download PDFInfo
- Publication number
- JP5982162B2 JP5982162B2 JP2012090358A JP2012090358A JP5982162B2 JP 5982162 B2 JP5982162 B2 JP 5982162B2 JP 2012090358 A JP2012090358 A JP 2012090358A JP 2012090358 A JP2012090358 A JP 2012090358A JP 5982162 B2 JP5982162 B2 JP 5982162B2
- Authority
- JP
- Japan
- Prior art keywords
- text
- text data
- difficulty level
- unit
- version
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012552 review Methods 0.000 title claims description 57
- 238000011156 evaluation Methods 0.000 claims description 53
- 230000014509 gene expression Effects 0.000 claims description 22
- 238000004458 analytical method Methods 0.000 description 41
- 230000000877 morphologic effect Effects 0.000 description 27
- 238000004364 calculation method Methods 0.000 description 23
- 238000010586 diagram Methods 0.000 description 19
- 230000006870 function Effects 0.000 description 17
- 238000012790 confirmation Methods 0.000 description 16
- 238000012545 processing Methods 0.000 description 13
- 238000000034 method Methods 0.000 description 11
- 238000012360 testing method Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 239000000284 extract Substances 0.000 description 3
- 230000008520 organization Effects 0.000 description 3
- 239000010979 ruby Substances 0.000 description 3
- 229910001750 ruby Inorganic materials 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000007373 indentation Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 235000016496 Panda oleosa Nutrition 0.000 description 1
- 240000000220 Panda oleosa Species 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000010006 flight Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004576 sand Substances 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Description
(1)やさしい日本語の専門家(例えば、外国人に日本語を教える日本語教師)と対象領域の専門家(例えば、ニュース記者)は、互いに相手の専門知識を持たないことを想定する必要がある。また、やさしい日本語の専門家の観点と対象領域の専門家の観点では、校閲に関してしばしば相反する要求が生じ、相互の調整を必要とする場合がある。
(2)例えば短時間で大量のテキストを校閲する必要のある組織(例えば、報道機関)において、作業効率を上げるためには、上記の専門家一名ずつで作業するとは限らず、複数のやさしい日本語の専門家と、複数の対象領域の専門家とが、協調的に作業を行なう必要がある。
(3)やさしい日本語の専門家にとっても、やさしい日本語のための、その正確な定義を覚えておくことは困難である。
なお、テキストデータのサイズとは、テキストデータに含まれる言語要素の数によって測られるものである。具体的には、テキストデータのサイズとは、例えば、文字数や、形態素数(単語数)や、文節数、文数などである。
図1は、本実施形態による校閲支援システムの機能構成を示すブロック図である。図示するように、校閲支援システム1は、制御部10と、テキスト入力部11と、テキスト選択指示部12と、テキスト木格納部14と、テキスト作業バッファ記憶部15と、テキスト表示部17と、テキスト評価部20と、漢字難易度リスト記憶部29と、辞書編集部39と、一文処理部40と、終了決定部50と、表示確認部60と、データ出力部61とを含んで構成される。
また、校閲支援システム1は、外部の形態素解析部30の機能を利用する。
また、一文処理部40は、一文編集部41と、コメント記入部42と、一文表示部43とを含んで構成される。
校閲支援システム1は、テキスト選択指示部12によって選択された版のテキストデータを、テキスト木格納部14から読み出して、テキスト作業バッファ記憶部15に書き込む。
テキスト作業バッファ記憶部15は、テキストデータの編集対象とする版を、編集作業のために記憶するバッファ領域を有する。
漢字難易度リスト記憶部29は、漢字とその難易度の情報を記憶する。
終了決定部50は、ユーザーからの操作に基づき、テキストデータの編集の作業の終了を決定し、完成稿のテキストデータを表示確認部60に渡す。なお、編集作業の終了が決定された版に対して、終了決定部50は、「完成稿」という編集タイプを付与する。
一文編集部41は、ユーザーの編集操作に基づき、一文表示部43が表示する一文の書き換えを行う。つまり、一文編集部41は、複数の版のテキストデータおよび難易度の情報が表示されている状態で、最新版のテキストデータを編集するものである。
コメント記入部42は、ユーザーの編集意図や疑問点等を表わすコメントの入力を受け付け、編集中のテキストデータに関連付けて保存する。
一文表示部43は、編集対象のテキストデータに含まれる文を、一文ずつ表示する。このとき、一文表示部43は、テキスト評価部20が出力する各種の評価情報を併せて表示する。
文献:「日本語能力試験 出題基準 改訂版」,2007年,国際交流基金・編集,日本国際教育支援協会・編集,凡人社
語釈用辞書記憶部33は、ユーザー辞書の一つである語釈用辞書を記憶する。語釈用辞書のデータ構成については、後述する。
単語難易度用辞書記憶部34は、ユーザー辞書の一つである単語難易度用辞書を記憶する。単語難易度用辞書のデータ構成については、後述する。
以下、これら各部の機能について説明する。
また、文間重複計算部25は、例えば下記参考文献に記載された技術などによるアルゴリズムを用いて文間の重複を抽出するようにしても良い。
参考文献: The decomposition of Human-Written Summary Sentences, 22nd International Conference on Research and Development in Information Retrieval, SIGIR99, 129-136, New York, 1999
D=K×S×R ・・・ (1)
このように、テキスト木格納部14が複数の版のテキストデータを木構造で保持することにより、後々の管理にも、これらのデータを利用できる。
上述した実施形態を、下記のような変形例としても良い。
例えば、式(1)によりテキストデータ全体の総合的な難しさDを計算する代わりに、別の方法で難しさを計算する。
その一例として、テキストデータ全体に由来する難しさとして、テキストデータが属するジャンルに応じた数値を用いる。この数値を、前述のKの値と置き換えても良いし、Kの値と合わせて用いても良い。ジャンルに応じた数値としては、例えば、政治や経済のジャンルのテキストデータは、他のジャンルのテキストデータよりも難しいので、相対的に大きな値とする。つまり、このとき、テキスト評価部20は、テキストデータが属するジャンルに基づきテキストデータ全体に由来する難易度を算出する。
ジャンルを特定するためには、人が判断して指定するようにしても良いし、テキスト中の語彙の分布に基づいて自動的にジャンルを判断するようにしても良い。
また、別の一例として、テキストデータ全体に由来する難しさとして、表現の重複率を用いても良い。表現の重複率は、文間で重複する箇所のサイズがテキストデータ全体の中で占める割合として計算できる。つまり、このとき、テキスト評価部20は、テキストデータ内に含まれる表現の重複率に基づきテキストデータ全体に由来する難易度を算出する。なお、文間での表現の重複を抽出する方法は、文間重複計算部25の処理として既に述べたとおりである。この数値を、テキストデータ全体に由来する難しさとして単独で用いても良いし、テキストデータ全体に由来する難しさを表わす他の値と合わせて用いても良い。
また、別の一例として、文に由来する難しさとして、係り受け情報を用いた値を使用しても良い。そのためには、構文解析装置を用いて、テキストデータに含まれる各々の文についての構文解析を行なう。構文解析の技術自体は、既存技術を用いることが出来る。そして、構文解析の結果として、文節間の係り受け構造を取得する。そして、係り受けの関係にある文節と文節との間の距離を、文内の全ての係り受け関係について求め、その平均値を用いる。このようにして得られる係り受け文節間の平均距離の数値を、前述のSの値と置き換えても良いし、Sの値と合わせて用いても良い。つまり、このとき、テキスト評価部20は、テキストデータ内に含まれる文内での、係り受け関係にある文節間の平均距離に基づき文に由来する難易度を算出する。なお、文節間の距離としては、テキストにおける文字数や形態素数などを用いることが出来る。
そして、テキスト難易度計算部26は、ここに挙げた例を、一つ、または複数組み合わせて用いて、テキストデータ全体の難しさの値を計算する。
10 制御部
11 テキスト入力部(入力部)
12 テキスト選択指示部
14 テキスト木格納部(テキスト履歴格納部)
15 テキスト作業バッファ記憶部
17 テキスト表示部(表示部)
20 テキスト評価部
21 一文文字数計算部
22 漢字難易度決定部
23 単語難易度決定部
24 語釈単語決定部
25 文間重複計算部
26 テキスト難易度計算部
29 漢字難易度リスト記憶部
30 形態素解析部
31 形態素解析エンジン
32 システム辞書記憶部
33 語釈用辞書記憶部
34 単語難易度用辞書記憶部
39 辞書編集部
40 一文処理部(編集部)
41 一文編集部(編集部)
42 コメント記入部
43 一文表示部(表示部)
50 終了決定部
60 表示確認部
61 データ出力部(出力部)
Claims (9)
- テキストデータを入力する入力部と、
前記テキストデータの編集履歴である複数の版を格納するテキスト履歴格納部と、
前記テキスト履歴格納部に格納されている版を読み出して、読み出された版の難易度を計算するテキスト評価部と、
前記テキスト履歴格納部に格納されている複数の版を読み出して、各々の版について、当該版のテキストデータと、前記テキスト評価部が計算した難易度の情報とを関連付けて表示する表示部と、
前記表示部が複数の版の前記テキストデータおよび前記難易度の情報を表示している状態で、最新版のテキストデータを編集する編集部と、
編集が終了した版のテキストデータを出力する出力部と、
を具備し、
前記テキスト評価部は、前記テキストデータ全体に由来する難易度と、前記テキストデータに含まれる文に由来する難易度と、前記テキストデータに含まれる単語に由来する難易度とを計算することにより、当該版の難易度とする、ものであり、
前記テキスト評価部は、前記テキストデータが属するジャンルに基づき前記テキストデータ全体に由来する難易度を算出する、
ことを特徴とする校閲支援システム。 - 前記テキスト評価部は、前記テキストデータのサイズに基づき前記テキストデータ全体に由来する難易度を算出する、
ことを特徴とする請求項1に記載の校閲支援システム。 - テキストデータを入力する入力部と、
前記テキストデータの編集履歴である複数の版を格納するテキスト履歴格納部と、
前記テキスト履歴格納部に格納されている版を読み出して、読み出された版の難易度を計算するテキスト評価部と、
前記テキスト履歴格納部に格納されている複数の版を読み出して、各々の版について、当該版のテキストデータと、前記テキスト評価部が計算した難易度の情報とを関連付けて表示する表示部と、
前記表示部が複数の版の前記テキストデータおよび前記難易度の情報を表示している状態で、最新版のテキストデータを編集する編集部と、
編集が終了した版のテキストデータを出力する出力部と、
を具備し、
前記テキスト評価部は、前記テキストデータ全体に由来する難易度と、前記テキストデータに含まれる文に由来する難易度と、前記テキストデータに含まれる単語に由来する難易度とを計算することにより、当該版の難易度とする、ものであり、
前記テキスト評価部は、前記テキストデータ内に含まれる表現の重複率に基づき前記テキストデータ全体に由来する難易度を算出する、
ことを特徴とする校閲支援システム。 - 前記テキスト評価部は、前記テキストデータ内に含まれる文の平均サイズに基づき前記文に由来する難易度を算出する、
ことを特徴とする請求項1から3までのいずれか一項に記載の校閲支援システム。 - 前記テキスト評価部は、前記テキストデータ内に含まれる文内での、係り受け関係にある文節間の平均距離に基づき前記文に由来する難易度を算出する、
ことを特徴とする請求項1から4までのいずれか一項に記載の校閲支援システム。 - 前記テキスト評価部は、前記テキストデータ内に含まれる単語の難易度の分布に基づき前記単語に由来する難易度を算出する、
ことを特徴とする請求項1から5までのいずれか一項に記載の校閲支援システム。 - テキストデータを入力する入力部と、
前記テキストデータの編集履歴である複数の版を格納するテキスト履歴格納部と、
前記テキスト履歴格納部に格納されている版を読み出して、読み出された版の難易度を計算するテキスト評価部と、
前記テキスト履歴格納部に格納されている複数の版を読み出して、各々の版について、当該版のテキストデータと、前記テキスト評価部が計算した難易度の情報とを関連付けて表示する表示部と、
前記表示部が複数の版の前記テキストデータおよび前記難易度の情報を表示している状態で、最新版のテキストデータを編集する編集部と、
編集が終了した版のテキストデータを出力する出力部と、
を具備し、
前記表示部は、前記テキストデータを表示する際に、前記テキストデータ内に含まれる単語の難易度に応じた文字属性で前記単語を表示する、
ことを特徴とする校閲支援システム。 - テキストデータを入力する入力部と、
前記テキストデータの編集履歴である複数の版を格納するテキスト履歴格納部と、
前記テキスト履歴格納部に格納されている版を読み出して、読み出された版の難易度を計算するテキスト評価部と、
前記テキスト履歴格納部に格納されている複数の版を読み出して、各々の版について、当該版のテキストデータと、前記テキスト評価部が計算した難易度の情報とを関連付けて表示する表示部と、
前記表示部が複数の版の前記テキストデータおよび前記難易度の情報を表示している状態で、最新版のテキストデータを編集する編集部と、
編集が終了した版のテキストデータを出力する出力部と、
漢字ごとの難易度のデータを保持する漢字難易度リスト記憶部と、
前記漢字難易度リスト記憶部から読み出した漢字ごとの難易度のデータに基づいて、前記テキストデータに含まれる漢字の難易度を決定する漢字難易度決定部と、
を具備し、
前記表示部は、前記テキストデータを表示する際に、前記テキストデータ内に含まれる漢字の難易度に応じた文字属性で前記漢字を表示する、
ことを特徴とする校閲支援システム。 - コンピューターを、請求項1から8までのいずれか一項に記載の校閲支援システムとして機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012090358A JP5982162B2 (ja) | 2012-04-11 | 2012-04-11 | 校閲支援システムおよびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012090358A JP5982162B2 (ja) | 2012-04-11 | 2012-04-11 | 校閲支援システムおよびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013218611A JP2013218611A (ja) | 2013-10-24 |
JP5982162B2 true JP5982162B2 (ja) | 2016-08-31 |
Family
ID=49590610
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012090358A Active JP5982162B2 (ja) | 2012-04-11 | 2012-04-11 | 校閲支援システムおよびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5982162B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022215219A1 (ja) * | 2021-04-08 | 2022-10-13 | 三菱電機株式会社 | 文評価装置、文評価方法及びプログラム |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05113975A (ja) * | 1991-10-22 | 1993-05-07 | Toshiba Corp | 共同文書処理システム |
JP5322047B2 (ja) * | 2007-06-27 | 2013-10-23 | 国立大学法人長岡技術科学大学 | 文章の読み易さ評価システム |
-
2012
- 2012-04-11 JP JP2012090358A patent/JP5982162B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2013218611A (ja) | 2013-10-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Adolphs | Introducing electronic text analysis: A practical guide for language and literary studies | |
Zhao et al. | Facilitating discourse analysis with interactive visualization | |
US8521512B2 (en) | Systems and methods for natural language communication with a computer | |
US20070112554A1 (en) | System of interactive dictionary | |
Van Atteveldt et al. | Computational analysis of communication | |
JPH02297188A (ja) | 文書作成支援装置 | |
Chen et al. | Crossdata: Leveraging text-data connections for authoring data documents | |
Souter et al. | Corpus-based computational linguistics | |
Tojiyev | FORMING THE ABILITY TO STRUCTURE INFORMATION TECHNOLOGY | |
Newman et al. | Corpus annotation | |
Kawaletz | The semantics of English-ment nominalizations | |
Waxman | A graph database of scholastic relationships in the Babylonian Talmud | |
Manning et al. | Kirrkirr: Software for browsing and visual exploration of a structured Warlpiri dictionary | |
Bambaci et al. | Encoding the Critical Apparatus by Domain Specific Languages: The Case of the Hebrew Book of Qohelet | |
JP5982162B2 (ja) | 校閲支援システムおよびプログラム | |
Kalouli et al. | Cousbi: A structured and visualized legal corpus of us state bills | |
Kashyap et al. | Insights on Hindi WordNet coming from the IndoWordNet | |
Winiwarter | Mastering Japanese through augmented browsing | |
Anderl | Some reflections on the Database of Medieval Chinese Texts as a multi-purpose tool for research, teaching, and international collaboration | |
Yáñez-Bouza | Methodological approaches to the study of codification, prescription, and prescriptivism | |
Stolk | Evoke: Exploring and extending a thesaurus of old english using a linked data approach | |
Moritz et al. | Generating and evaluating object-oriented designs for instructors and novice students | |
Iwashokun et al. | Structural vetting of academic proposals | |
JPH05282361A (ja) | データベース作成支援装置及び機械翻訳装置 | |
Rambousek et al. | New features in DEBVisDic for WordNet Visualization and User Feedback. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150302 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20160121 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160209 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160328 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160705 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160801 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5982162 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |