JP2002269134A - 文字列処理方法及び装置、並びに情報検索システム - Google Patents

文字列処理方法及び装置、並びに情報検索システム

Info

Publication number
JP2002269134A
JP2002269134A JP2001067667A JP2001067667A JP2002269134A JP 2002269134 A JP2002269134 A JP 2002269134A JP 2001067667 A JP2001067667 A JP 2001067667A JP 2001067667 A JP2001067667 A JP 2001067667A JP 2002269134 A JP2002269134 A JP 2002269134A
Authority
JP
Japan
Prior art keywords
character
character string
string
input
type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001067667A
Other languages
English (en)
Inventor
Anwill Filis
アンウィル フィリス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2001067667A priority Critical patent/JP2002269134A/ja
Publication of JP2002269134A publication Critical patent/JP2002269134A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 同義でありながら表記が異なる文字若しくは
文字列を正規化すると共に、該正規化された文字若しく
は文字列の同義異表記を展開し、ユーザーに提示する文
字列処理方法及び装置を提供すること。 【解決手段】 予め保持する1文字変換表に基づいて入
力された文字列を変換し、予め保持する合字表に基づい
て入力された文字列を変換し、予め保持する文字分解表
に基づいて入力された文字列を変換し、予め保持する字
種表に基づいて上記三つの変換処理後の入力文字列を解
析し、該解析結果に基づいて前記入力文字列を字種が変
わる箇所で分割して1以上の同一字種連続文字列を生成
し、予め保持する正規化規則に基づいて、入力された文
字列を分割して成る同一字種連続文字列の正規化表記を
生成し、出力する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、主に情報検索シス
テムなどにおいて検索のために入力された文字列を処理
する方法及び装置に関し、特に同義でありながら表記が
異なる文字若しくは文字列を正規化し、且つ正規化され
た文字若しくは文字列の同義異表記を展開し、ユーザー
に提示する文字列処理方法及び装置に関する。
【0002】
【従来の技術】情報検索システムについては、例えば、
特開平3−174652号公報、特開平6−34248
3号公報、及び特開平10−240743号公報などに
開示されているものがある。
【0003】又、異表記及び同義語展開方法について
は、例えば、特開平3−15980号公報、及び特開平
8−263508号公報などに開示されているものがあ
る。特に、カタカナ語を異表記に展開する方法について
は、例えば、特開平6−44295号公報に開示されて
いる。
【0004】
【発明が解決しようとする課題】しかしながら上記従来
の方法及びシステムでは、複数の同義異表記文字若しく
は文字列を一つの表記に正規化することができなかっ
た。
【0005】又、何らかの処理によって複数の異表記を
代表する一つの表記を定めたとしても、該一表記を複数
の異表記に展開することができなかった。
【0006】本発明はこのような課題を解決するために
為されたものであり、同義でありながら表記が異なる文
字若しくは文字列を正規化すると共に、該正規化された
文字若しくは文字列の同義異表記を展開し、ユーザーに
提示する文字列処理方法及び装置を提供することを目的
とする。
【0007】
【課題を解決するための手段】本発明の請求項1に係る
文字列処理方法は、文字列の入力を受け付け、予め保持
する1つの文字を1つの文字へ変換するための1文字変
換表に基づいて前記入力された文字列を変換し、予め保
持する複数の文字から成る文字列を1文字へ変換するた
めの合字表に基づいて前記入力された文字列を変換し、
予め保持する1つの文字を複数の文字から成る文字列へ
変換するための文字分解表に基づいて前記入力された文
字列を変換し、予め保持する文字と該文字の種類との対
応関係を示す字種表に基づいて上記三つの変換処理後の
入力文字列を解析し、該解析結果に基づいて前記入力文
字列を字種が変わる箇所で分割して1以上の同一字種連
続文字列を生成し、予め保持する同一字種連続文字列を
異表記に正規化するための規則群に基づいて、前記入力
された文字列を分割して成る同一字種連続文字列の正規
化表記を生成し、出力する方法を採る。
【0008】本発明の請求項2に係る文字処理方法は、
請求項1に係る文字処理方法において、予め保持された
複数の1文字変換表に基づく変換処理を他の変換処理と
別の処理段階に分けて行う方法を採る。
【0009】これらの方法によれば、文字変換と正規化
規則とによって、同義異表記を一つの表記に正規化する
ことができる。
【0010】本発明の請求項3に係る文字処理方法は、
請求項1又は2に係る文字処理方法において、予め保持
する同一字種連続文字列を複数の異表記に展開するため
の規則群に基づいて、前記正規化された文字列から複数
の異表記を展開する方法を採る。
【0011】この方法によれば、展開規則によって、正
規化された表記を複数の異なる表記に展開できる。
【0012】本発明の請求項4に係る文字列処理装置
は、文字列の入力を受け付ける入力手段と、1つの文字
を1つの文字へ変換するための1文字変換表を保持し、
前記入力文字列に含まれる所定の1文字を該1文字変換
表に基づいて所定の1文字に変換する1文字変換手段
と、複数の文字から成る文字列を1文字へ変換するため
の合字表を保持し、前記入力文字列に含まれる所定の文
字列を該合字表に基づいて所定の1文字に変換する複数
文字合字手段と、1つの文字を複数の文字から成る文字
列へ変換するための文字分解表を保持し、前記入力文字
列に含まれる所定の1文字を該文字分解表に基づいて所
定の文字列へ変換する文字分解手段と、文字と該文字の
種類との対応関係を示す字種表を保持し、前記入力文字
列に含まれる各文字の字種を該字種表に基づいて解析
し、該解析結果に基づいて前記入力文字列を字種が変わ
る箇所で分割し、1以上の同一字種連続文字列を生成す
る文字列分割手段と、同一字種連続文字列を異表記に正
規化するための規則群を保持し、任意の文字列について
前記二規則のいずれかを参照し、該参照結果を出力する
規則参照手段と、前記規則参照手段によって得られた正
規化規則参照結果に基いて、前記文字列分割手段によっ
て得られた同一字種連続文字列の正規化表記を生成する
表記正規化手段と、変換された文字列を出力する出力手
段とを有する構成を採る。
【0013】本発明の請求項5に係る文字処理装置は、
請求項4に係る文字処理装置において、前記1文字変換
手段は、前記1文字変換表を複数個保持し、該表に基づ
く文字列の変換処理を他の変換処理とは別の処理段階に
分けて行う構成を採る。
【0014】これらの構成によれば、文字変換と正規化
規則とによって、同義異表記を一つの表記に正規化する
ことができる。
【0015】本発明の請求項6に係る文字処理装置は、
請求項4又は5に係る文字処理装置において、同一字種
連続文字列を複数の異表記に展開するための規則群を保
持し、前記正規化された文字列から複数の異表記を展開
する表記展開手段を更に有する構成を採る。
【0016】この構成によれば、展開規則によって、正
規化された表記を複数の異なる表記に展開できる。
【0017】本発明の請求項7に係る情報検索システム
は、入力された文字列について所定の方法に従って情報
を検索する情報検索システムであって、請求項4乃至6
のいずれか一に係る文字処理装置を具備する構成を採
る。
【0018】この構成によれば、様々な文字列の入力を
受け付けることが可能となり、情報検索システムの利便
性が向上する。
【0019】
【発明の実施の形態】以下、添付図面を参照しながら本
発明の一実施形態について説明する。
【0020】まず、図1を用いて、本発明の一実施形態
に係る文字処理装置の構成を説明する。図1は、本発明
の一実施形態に係る文字処理装置の構成を概略的に示す
概略構成図である。
【0021】図1において、本実施形態に係る文字処理
装置100は、入力部101と、1文字変換表1保持部
102と、1文字変換表2保持部103と、1文字変換
部104と、合字表保持部105と、複数文字合字部1
06と、文字分解表保持部107と、1文字分解部10
8と、字種表保持部109と、同字種文字列分解部11
0と、正規化規則保持部111と、展開規則保持部11
2と、規則参照部113と、表記正規化部114と、表
記展開部115と、出力部116と、これらを制御する
制御機構117とを有する。
【0022】入力部101は、文字列の入力を受け付け
る。
【0023】1文字変換表1保持部102及び1文字変
換表2保持部103は、1つの文字を1つの文字へ変換
するための1文字変換表を保持する。1文字変換表1
は、規則による文字列の正規化を行う前の文字変換用で
あり、1文字変換表2は、正規化が行われた後の文字変
換用である。1文字変換表1の内容の一例を図2に、1
文字変換表2の内容の一例を図3に、それぞれ示す。
【0024】1文字変換部104は、入力された文字列
に含まれる所定の1文字を上記1文字変換表1及び2に
基づいて所定の1文字に変換する。
【0025】合字表保持部105は、複数の文字から成
る文字列を1文字へ変換するための合字表を保持する。
合字表の内容の一例を図4に示す。
【0026】複数文字合字部106は、入力された文字
列に含まれる所定の文字列を上記合字表に基づいて所定
の1文字に変換する。
【0027】文字分解表保持部107は、1つの文字を
複数の文字から成る文字列へ変換するための文字分解表
を保持する。文字分解表の内容の一例を図5に示す。
【0028】1文字分解部108は、入力された文字列
に含まれる所定の1文字を上記文字分解表に基づいて所
定の文字列へ変換する。
【0029】字種表保持部109は、文字と該文字の種
類との対応関係を示す字種表を保持する。字種表の内容
の一例を図6に示す。
【0030】同字種文字列分割部110は、入力された
文字列に含まれる各文字の字種を上記字種表に基づいて
解析し、該解析結果に基づいて入力された文字列を字種
が変わる箇所で分割し、1以上の同一字種連続文字列を
生成する。
【0031】正規化規則保持部111は、同一字種連続
文字列を異表記に正規化するための規則群を保持する。
正規化規則の内容の一例を図7に示す。
【0032】展開規則保持部112は、同一字種連続文
字列を複数の異表記に展開する規則郡を保持する。展開
規則の内容の一例を図8に示す。
【0033】規則参照部113は、入力された任意文字
列について、上記正規化規則又は上記展開規則を参照
し、正規化規則参照結果又は展開規則参照結果を出力す
る。
【0034】表記正規化部114は、規則参照部113
によって得られた正規化規則参照結果に基づいて、同字
種文字列分割部110によって生成された同一字種連続
文字列の正規化表記を生成する。
【0035】表記展開部114は、規則参照部113に
よって得られた展開規則参照結果に基づいて、同字種文
字列分割部110によって生成された同一字種連続文字
列の展開表記を生成する。
【0036】出力部116は、変換された文字列を出力
する。
【0037】ついで、図9を用いて、本実施形態に係る
文字処理装置100の動作について説明する。図9は、
本発明の一実施形態に係る文字処理装置の動作の流れを
示すフローチャートである。
【0038】まず、S901において、処理される対象
文字列が入力部101に入力される。ここでは、一例と
して、図10に示す文字列が入力されたものとする。
【0039】入力された文字列(以下、対象文字列とい
う)は、S902において、1文字変換部104によっ
て、1文字変換表1に基づいて変換される。変換後の対
象文字列を図11に示す。
【0040】次いで、対象文字列は、S903におい
て、複数文字合字部106によって、合字表に基づいて
変換される。変換後の対象文字列を図12に示す。
【0041】次いで、対象文字列は、S904におい
て、文字分解部108によって、文字分解表に基づいて
変換される。変換後の対象文字列を図13に示す。
【0042】次いで、対象文字列は、S905におい
て、同字種文字列分解部110によって、字種表に基づ
いて同字種連続文字列に分割される。切り出された同字
種連続文字列を図14に示す。
【0043】次いで、S906において、規則参照部1
13が図14に示す文字列について正規化規則を参照
し、参照結果を取得する。参照結果を図15に示す。
【0044】次いで、S907において、表記正規化部
114が図15に示す参照結果から正規化表記を生成す
る。生成された正規化表記を図16に示す。
【0045】以降、図17に示す正規化された表記がそ
のまま出力部116によって出力される(S911)よ
うにしてもよく、又、1文字変換部104によって、1
文字変換表2に基づいて変換されてから(S908)、
図18に示す該変換結果が出力される(S911)よう
にしてもよく、更には、規則参照部113が図14に示
す文字列について展開規則を参照し、図19に示す参照
結果を取得し(S909)、表記展開部115が該参照
結果から図20に示す展開表記を生成し(S910)、
該展開表記を出力する(S911)ようにしてもよい。
【0046】
【発明の効果】以上、説明したように、本発明の請求項
1及び2に係る文字列処理方法によれば、同義異表記を
一つの表記に正規化することができる。
【0047】又、本発明の請求項3に係る文字処理方法
によれば、正規化された表記を複数の異なる表記に展開
できる。
【0048】又、本発明の請求項4及び5に係る文字列
処理装置によれば、同義異表記を一つの表記に正規化す
ることができる。
【0049】又、本発明の請求項6に係る文字列処理装
置によれば、正規化された表記を複数の異なる表記に展
開できる。
【0050】更に、本発明の請求項7に係る情報検索シ
ステムによれば、情報検索システムの利便性が向上す
る。
【図面の簡単な説明】
【図1】本発明の一実施形態に係る文字処理装置の構成
を概略的に示す概略構成図である。
【図2】1文字変換表1の内容の一例を示す図である。
【図3】1文字変換表2の内容の一例を示す図である。
【図4】合字表の内容の一例を示す図である。
【図5】文字分解表の内容の一例を示す図である。
【図6】字種表の内容の一例を示す図である。
【図7】正規化規則の内容の一例を示す図である。
【図8】展開規則の内容の一例を示す図である。
【図9】本発明の一実施形態に係る文字処理装置の動作
の流れを示すフローチャートである。
【図10】入力文字列の一例を示す図である。
【図11】1文字変換表2に基づいた1文字変換処理後
の文字列を示す図である。
【図12】合字処理後の文字列を示す図である。
【図13】文字分解処理後の文字列を示す図である。
【図14】同字種連続文字列を示す図である。
【図15】正規化規則参照結果を示す図である。
【図16】正規化表記を示す図である。
【図17】正規化された文字列を示す図である。
【図18】1文字変換表2に基づいた1文字変換処理後
の文字列を示す図である。
【図19】展開規則参照結果を示す図である。
【図20】展開表記を示す図である。
【符号の説明】
100 文字処理装置 101 入力部 102 1文字変換表1保持部 103 1文字変換表2保持部 104 1文字変換部 105 合字表保持部 106 複数文字合字部 107 文字分解表保持部 108 1文字分解部 109 字種表保持部 110 同字種文字列分解部 111 正規化規則保持部 112 展開規則保持部 113 規則参照部 114 表記正規化部 115 表記展開部 116 出力部 117 制御機構

Claims (7)

    【特許請求の範囲】
  1. 【請求項1】 文字列の入力を受け付け、 予め保持する1つの文字を1つの文字へ変換するための
    1文字変換表に基づいて前記入力された文字列を変換
    し、 予め保持する複数の文字から成る文字列を1文字へ変換
    するための合字表に基づいて前記入力された文字列を変
    換し、 予め保持する1つの文字を複数の文字から成る文字列へ
    変換するための文字分解表に基づいて前記入力された文
    字列を変換し、 予め保持する文字と該文字の種類との対応関係を示す字
    種表に基づいて上記三つの変換処理後の入力文字列を解
    析し、該解析結果に基づいて前記入力文字列を字種が変
    わる箇所で分割して1以上の同一字種連続文字列を生成
    し、 予め保持する同一字種連続文字列を異表記に正規化する
    ための規則群に基づいて、前記入力された文字列を分割
    して成る同一字種連続文字列の正規化表記を生成し、出
    力することを特徴とする文字列処理方法。
  2. 【請求項2】 請求項1記載の文字処理方法であって、 予め保持された複数の1文字変換表に基づく変換処理を
    他の変換処理と別の処理段階に分けて行うことを特徴と
    する文字列処理方法。
  3. 【請求項3】 請求項1又は2記載の文字処理方法であ
    って、 予め保持する同一字種連続文字列を複数の異表記に展開
    するための規則群に基づいて、前記正規化された文字列
    から複数の異表記を展開することを特徴とする文字処理
    方法。
  4. 【請求項4】 文字列の入力を受け付ける入力手段と、 1つの文字を1つの文字へ変換するための1文字変換表
    を保持し、前記入力文字列に含まれる所定の1文字を該
    1文字変換表に基づいて所定の1文字に変換する1文字
    変換手段と、 複数の文字から成る文字列を1文字へ変換するための合
    字表を保持し、前記入力文字列に含まれる所定の文字列
    を該合字表に基づいて所定の1文字に変換する複数文字
    合字手段と、 1つの文字を複数の文字から成る文字列へ変換するため
    の文字分解表を保持し、前記入力文字列に含まれる所定
    の1文字を該文字分解表に基づいて所定の文字列へ変換
    する文字分解手段と、 文字と該文字の種類との対応関係を示す字種表を保持
    し、前記入力文字列に含まれる各文字の字種を該字種表
    に基づいて解析し、該解析結果に基づいて前記入力文字
    列を字種が変わる箇所で分割し、1以上の同一字種連続
    文字列を生成する文字列分割手段と、 同一字種連続文字列を異表記に正規化するための規則群
    を保持し、任意の文字列について前記二規則のいずれか
    を参照し、該参照結果を出力する規則参照手段と、 前記規則参照手段によって得られた正規化規則参照結果
    に基いて、前記文字列分割手段によって得られた同一字
    種連続文字列の正規化表記を生成する表記正規化手段
    と、 変換された文字列を出力する出力手段とを有することを
    特徴とする文字列処理装置。
  5. 【請求項5】 請求項4記載の文字処理装置であって、 前記1文字変換手段は、前記1文字変換表を複数個保持
    し、該表に基づく文字列の変換処理を他の変換処理とは
    別の処理段階に分けて行うことを特徴とする文字処理装
    置。
  6. 【請求項6】 請求項4又は5記載の文字処理装置であ
    って、 同一字種連続文字列を複数の異表記に展開するための規
    則群を保持し、前記正規化された文字列から複数の異表
    記を展開する表記展開手段を更に有することを特徴とす
    る文字処理装置。
  7. 【請求項7】 入力された文字列について所定の方法に
    従って情報を検索する情報検索システムであって、請求
    項4乃至6のいずれか一記載の文字処理装置を具備する
    ことを特徴とする情報検索システム。
JP2001067667A 2001-03-09 2001-03-09 文字列処理方法及び装置、並びに情報検索システム Pending JP2002269134A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001067667A JP2002269134A (ja) 2001-03-09 2001-03-09 文字列処理方法及び装置、並びに情報検索システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001067667A JP2002269134A (ja) 2001-03-09 2001-03-09 文字列処理方法及び装置、並びに情報検索システム

Publications (1)

Publication Number Publication Date
JP2002269134A true JP2002269134A (ja) 2002-09-20

Family

ID=18925985

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001067667A Pending JP2002269134A (ja) 2001-03-09 2001-03-09 文字列処理方法及び装置、並びに情報検索システム

Country Status (1)

Country Link
JP (1) JP2002269134A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009060817A1 (ja) * 2007-11-08 2009-05-14 Honda Motor Co., Ltd. 情報検索装置
JP2009223463A (ja) * 2008-03-14 2009-10-01 Nippon Telegr & Teleph Corp <Ntt> 同義性判定装置、その方法、プログラム及び記録媒体
JP2012063926A (ja) * 2010-09-15 2012-03-29 Alpine Electronics Inc 名称検索方法および名称検索装置
JP2014021542A (ja) * 2012-07-12 2014-02-03 Alpine Electronics Inc リスト表示装置、リスト表示方法およびリスト表示用プログラム
JP2016129074A (ja) * 2016-03-28 2016-07-14 アルパイン株式会社 リスト表示装置、リスト表示方法およびリスト表示用プログラム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009060817A1 (ja) * 2007-11-08 2009-05-14 Honda Motor Co., Ltd. 情報検索装置
JP2009223463A (ja) * 2008-03-14 2009-10-01 Nippon Telegr & Teleph Corp <Ntt> 同義性判定装置、その方法、プログラム及び記録媒体
JP2012063926A (ja) * 2010-09-15 2012-03-29 Alpine Electronics Inc 名称検索方法および名称検索装置
JP2014021542A (ja) * 2012-07-12 2014-02-03 Alpine Electronics Inc リスト表示装置、リスト表示方法およびリスト表示用プログラム
JP2016129074A (ja) * 2016-03-28 2016-07-14 アルパイン株式会社 リスト表示装置、リスト表示方法およびリスト表示用プログラム

Similar Documents

Publication Publication Date Title
US6076060A (en) Computer method and apparatus for translating text to sound
JP3836502B2 (ja) テキスト・波形変換
JP2002269134A (ja) 文字列処理方法及び装置、並びに情報検索システム
JP5611270B2 (ja) 単語分割装置、及び単語分割方法
JP6998017B2 (ja) 音声合成用データ生成装置、音声合成用データ生成方法及び音声合成システム
JP2023039102A (ja) データ拡張用情報取得装置、及びデータ拡張用情報取得プログラム
JP3589972B2 (ja) 音声合成装置
JP2006030384A (ja) テキスト音声合成装置及びテキスト音声合成方法
JP2002358091A (ja) 音声合成方法および音声合成装置
JP4643183B2 (ja) 翻訳装置および翻訳プログラム
JP5097454B2 (ja) データ入力装置、方法、及びプログラム
JP5114228B2 (ja) データ入力装置及びデータ入力方法
JP3048793B2 (ja) 文字変換装置
JPH04253098A (ja) 音声合成に用いる数字及び特殊記号の言語処理方法
JPH0827635B2 (ja) 文―音声変換装置に用いる複合語処理装置
JPH08272780A (ja) 中国語入力処理装置及び中国語入力処理方法及び言語処理装置及び言語処理方法
JP2006030383A (ja) テキスト音声合成装置及びテキスト音声合成方法
JP2009098328A (ja) 音声合成装置及び方法
JPH11161651A (ja) 発音記号生成装置
JP2018206191A (ja) 言語変換プログラム及び言語変換装置
JP2005275880A (ja) 字句をデータに変換する装置、方法及びプログラム
JPH04295962A (ja) 形態素解析装置
JP2007048124A (ja) 表示制御装置及びプログラム
JPH0251764A (ja) 索引生成方式
JPH07146864A (ja) 機械翻訳装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050823

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080902

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090203