JP2013130904A - 複合語読み表示方法及びプログラム,並びに読み生成装置 - Google Patents
複合語読み表示方法及びプログラム,並びに読み生成装置 Download PDFInfo
- Publication number
- JP2013130904A JP2013130904A JP2011277874A JP2011277874A JP2013130904A JP 2013130904 A JP2013130904 A JP 2013130904A JP 2011277874 A JP2011277874 A JP 2011277874A JP 2011277874 A JP2011277874 A JP 2011277874A JP 2013130904 A JP2013130904 A JP 2013130904A
- Authority
- JP
- Japan
- Prior art keywords
- compound word
- reading
- morpheme
- division
- compound
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
【解決手段】 読み生成装置1の形態素列出力部2は入力テキスト51を形態素解析して形態素列を生成し,複合語抽出部31は,形態素列から複合語を示す品詞列の部分を抽出する。複数分割可能複合語判定部33は,抽出した複合語毎に,形態素列を形態素へ分割する分割結果が複数存在するかを判定する。表示処理部41は,入力テキスト51の表示用データである表示テキスト52を表示する際に,分割結果が複数存在すると判定された複合語を強調表示する。
【選択図】 図1
Description
第1実施例では,読み生成装置1は,入力テキスト51から抽出した複合語の分割結果が複数存在するかの判定処理を,分割結果の個数に基づいて行い,強調表示する複合語を決定する。
第2実施例では,読み生成装置1は,第1実施例と同様の処理により強調表示する複合語を決定し,さらに,分割結果数に応じた区分に対応する表示態様の設定を備えておき,求めた分割結果数に応じた多段階の態様で複合語を強調表示する。
第3実施例では,読み生成装置1は,入力テキスト51から抽出した複合語の分割結果が複数存在するかの判定処理を,分割結果の接続強度のスコア差に基づいて行い,強調表示する複合語を決定する。
第4実施例では,読み生成装置1は,第3実施例と同様の処理により強調表示する複合語を決定し,さらに,第1位と第2位の接続強度のスコア差に応じた区分に対応する表示態様の設定を備えておき,判定された区分に対応して多段階の態様で複合語を強調表示する。
読み生成装置1は,上述の第1実施例〜第4実施例の処理によって表示テキスト52が表示されると,ユーザによって選択された複合語の読みを修正する。
10 記憶部
11 単語辞書
12 連接規則
2 形態素列出力部
3 複合語検出部
31 複合語抽出部
33 複数分割可能複合語判定部
4 テキスト表示部
41 表示処理部
43 読み設定部
51 入力テキスト
52 表示テキスト
Claims (8)
- 複合語の読みを表示する読み表示方法において,
コンピュータが,
テキストデータに形態素解析を行って該テキストデータの形態素列を生成し,
前記形態素列から,複合語を示す品詞列に該当する部分を複合語として抽出し,
前記複合語について,該当する形態素列を形態素へ分割する分割結果が複数存在するかを判定し,
前記テキストデータを表示する際に,前記分割結果が複数存在すると判定された複合語を強調表示する
ことを特徴とする複合語読み表示方法。 - 前記複合語の分割結果を判定する場合に,前記複合語の分割結果から,分割された形態素として複合語を構成しない品詞である形態素を含む分割結果を削除し,削除した残り分割結果が複数存在するかを判定する
ことを特徴とする請求項1に記載の複合語読み表示方法。 - 前記複合語の分割結果を判定する処理において,前記複合語の形態素列に含まれる形態素間の連接可能性を示す値に基づいて,該複合語の分割結果毎に接続強度のスコアを計算し,第1位のスコアと第2位のスコアとの差が予め設定した閾値以下である場合に前記分割結果が複数存在すると判定する
ことを特徴とする請求項1又は請求項2に記載の複合語読み表示方法。 - 前記複合語の分割結果を判定する処理において,前記第1位のスコアを得た分割結果を,前記複合語の分割結果として出力する
ことを特徴とする請求項3に記載の複合語読み表示方法。 - 前記分割結果の個数に基づく区分に対応する強調表示の態様の設定を備えて,前記テキストデータを表示する処理において,前記複合語を,該複合語の分割結果の個数に対応する態様で強調表示する
ことを特徴とする請求項1ないし請求項4に記載の複合語読み表示方法。 - 前記分割結果のスコアの差に基づく区分に態様する強調表示の態様の設定を備えて,前記テキストデータを表示する処理において,前記複合語を,該複合語の分割結果の第1位のスコアと第2位のスコアの差に対応する態様で強調表示する
ことを特徴とする請求項3または請求項4に記載の複合語読み表示方法。 - 複合語の読みを生成する複合語読み表示プログラムであって,
コンピュータに,
テキストデータを受け付け,該受け付けたテキストデータに形態素解析を行って該テキストデータの形態素列を生成する処理と,
前記形態素列から,複合語を示す品詞列に該当する部分を複合語として抽出する処理と,
前記複合語について,該当する形態素列を形態素へ分割する分割結果が複数存在するかを判定する処理と,
前記テキストデータを表示する際に,前記分割結果が複数存在すると判定された複合語を強調表示する処理とを,実行させる
ことを特徴とする複合語読み表示プログラム。 - 読みを生成する読み生成装置において,
入力されたテキストデータに形態素解析を行って該テキストデータの形態素列を生成する形態素列出力部と,
前記形態素列から,複合語を示す品詞列に該当する部分を複合語として抽出する複合語抽出部と,
前記複合語について,該当する形態素列を形態素へ分割する分割結果が複数存在するかを判定する複数分割可能複合語判定部と,
前記テキストデータを表示する際に,前記分割結果が複数存在すると判定された複合語を強調表示する表示処理部とを,備える
ことを特徴とする読み生成装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011277874A JP5838781B2 (ja) | 2011-12-20 | 2011-12-20 | 複合語読み表示方法及びプログラム,並びに読み生成装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011277874A JP5838781B2 (ja) | 2011-12-20 | 2011-12-20 | 複合語読み表示方法及びプログラム,並びに読み生成装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013130904A true JP2013130904A (ja) | 2013-07-04 |
JP5838781B2 JP5838781B2 (ja) | 2016-01-06 |
Family
ID=48908435
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011277874A Expired - Fee Related JP5838781B2 (ja) | 2011-12-20 | 2011-12-20 | 複合語読み表示方法及びプログラム,並びに読み生成装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5838781B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7481999B2 (ja) | 2020-11-05 | 2024-05-13 | 株式会社東芝 | 辞書編集装置、辞書編集方法及び辞書編集プログラム |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06202843A (ja) * | 1992-12-28 | 1994-07-22 | Toshiba Corp | 文書読み上げ装置 |
JPH07210556A (ja) * | 1994-01-21 | 1995-08-11 | Toshiba Corp | 自然言語処理装置及び自然言語処理方法 |
JPH09171392A (ja) * | 1995-10-20 | 1997-06-30 | Ricoh Co Ltd | 発音情報作成方法およびその装置 |
JP2001188555A (ja) * | 1999-12-28 | 2001-07-10 | Sony Corp | 情報処理装置および方法、並びに記録媒体 |
JP2004103037A (ja) * | 2003-11-10 | 2004-04-02 | Omron Corp | 日本語文解析装置および日本語文解析方法 |
JP2007199410A (ja) * | 2006-01-26 | 2007-08-09 | Internatl Business Mach Corp <Ibm> | テキストに付与する発音情報の編集を支援するシステム |
-
2011
- 2011-12-20 JP JP2011277874A patent/JP5838781B2/ja not_active Expired - Fee Related
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06202843A (ja) * | 1992-12-28 | 1994-07-22 | Toshiba Corp | 文書読み上げ装置 |
JPH07210556A (ja) * | 1994-01-21 | 1995-08-11 | Toshiba Corp | 自然言語処理装置及び自然言語処理方法 |
JPH09171392A (ja) * | 1995-10-20 | 1997-06-30 | Ricoh Co Ltd | 発音情報作成方法およびその装置 |
JP2001188555A (ja) * | 1999-12-28 | 2001-07-10 | Sony Corp | 情報処理装置および方法、並びに記録媒体 |
JP2004103037A (ja) * | 2003-11-10 | 2004-04-02 | Omron Corp | 日本語文解析装置および日本語文解析方法 |
JP2007199410A (ja) * | 2006-01-26 | 2007-08-09 | Internatl Business Mach Corp <Ibm> | テキストに付与する発音情報の編集を支援するシステム |
Non-Patent Citations (2)
Title |
---|
宇佐美 佑 外3名: "固有表現抽出のための大規模訓練データの自動獲得", 情報処理学会研究報告 2011(平成23)年度1 [CD−ROM], JPN6015016535, 15 June 2011 (2011-06-15), JP, pages 1 - 8, ISSN: 0003060640 * |
宮崎 正弘: "係り受け解析を用いた複合語の自動分割法", 情報処理学会論文誌, vol. 第25巻 第6号, JPN6015016533, 15 November 1984 (1984-11-15), JP, pages 970 - 979, ISSN: 0003060639 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7481999B2 (ja) | 2020-11-05 | 2024-05-13 | 株式会社東芝 | 辞書編集装置、辞書編集方法及び辞書編集プログラム |
Also Published As
Publication number | Publication date |
---|---|
JP5838781B2 (ja) | 2016-01-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20170004124A1 (en) | Systems and methods for automatically creating tables using auto-generated templates | |
CN109033282B (zh) | 一种基于抽取模板的网页正文抽取方法及装置 | |
CN101996232A (zh) | 信息处理装置、用于处理信息的方法及程序 | |
JPWO2007097208A1 (ja) | 言語処理装置、言語処理方法および言語処理用プログラム | |
US20150121200A1 (en) | Text processing apparatus, text processing method, and computer program product | |
JP3372532B2 (ja) | 感情情報抽出方法および感情情報抽出プログラムの計算機読み取り可能な記録媒体 | |
KR20220127361A (ko) | 비디오 번역 방법 및 장치, 저장 매체 및 전자 디바이스 | |
JP2019032704A (ja) | 表データ構造化システムおよび表データ構造化方法 | |
US9679566B2 (en) | Apparatus for synchronously processing text data and voice data | |
CN111046627A (zh) | 一种中文文字显示方法及系统 | |
JP5838781B2 (ja) | 複合語読み表示方法及びプログラム,並びに読み生成装置 | |
CN113409791A (zh) | 语音识别处理方法、装置、电子设备及存储介质 | |
JP6623840B2 (ja) | 同義語検出装置、同義語検出方法及び同義語検出用コンピュータプログラム | |
JP5169602B2 (ja) | 形態素解析装置、形態素解析方法及びコンピュータプログラム | |
JP5326781B2 (ja) | 抽出規則作成システム、抽出規則作成方法及び抽出規則作成プログラム | |
KR101777141B1 (ko) | 한글 입력 키보드를 이용한 훈민정음 기반 중국어 및 외국어 입력 장치 및 방법 | |
JP5557469B2 (ja) | 文字検索装置、文字検索システム、文字検索方法、入力端末装置、検索サーバおよびプログラム | |
KR101658598B1 (ko) | 로마자 발음 표기를 매개로 하는 한글 기반의 중국어 입력 장치 및 방법 | |
JP2007026347A (ja) | テキストマイニング装置、テキストマイニング方法およびテキストマイニングプログラム | |
JP2001109740A (ja) | 中国語文書作成装置及び中国語文書作成方法 | |
JP2010117832A (ja) | 関係情報抽出装置、その方法、プログラム及び記録媒体 | |
JP3939264B2 (ja) | 形態素解析装置 | |
JP5542368B2 (ja) | 文字列入力装置、文字列入力方法、およびプログラム | |
JP2010134766A (ja) | 文書データ処理装置およびそのプログラム | |
JP2006031198A (ja) | テキストマイニング装置及びそれに用いるテキストマイニング方法並びにそのプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140805 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150417 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150428 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150629 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20151013 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20151026 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5838781 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |