JP2014085724A

JP2014085724A - 文字列分割装置、モデルファイル学習装置および文字列分割システム

Info

Publication number: JP2014085724A
Application number: JP2012232182A
Authority: JP
Inventors: Naoki Shibata; 直樹柴田
Original assignee: Fuetrek Co Ltd
Current assignee: Fuetrek Co Ltd
Priority date: 2012-10-19
Filing date: 2012-10-19
Publication date: 2014-05-12
Anticipated expiration: 2032-10-19
Also published as: JP6055267B2

Abstract

【課題】表音文字列からなる分割対象データを比較的短時間で的確に形態素に分割する。
【解決手段】表音文字列に対して区切り位置を表す区切り記号「／」が挿入された区切り付き文字列データを多数用意し、区切り文字列データから指定ｇｒａｍ数Ｎずつ抽出した文字列からなるパターン単位で、文字間、文字列先端および終端の各位置における区切り確率を求め、パターンと区切り確率とからなるモデルファイルＭＦを作成しておく。表音文字列からなる分割対象データから指定ｇｒａｍ数Ｎずつ抽出した文字列からなるパターンに対応する区切り確率をモデルファイルＭＦから求め（ステップＳ２４）、同一の文字間を含むパターンそれぞれについて検出された前記区切り確率に基づき、前記同一の文字間における、各パターンの区切り確率の平均値を演算し（ステップＳ２６）、この区切り確率の平均値が閾値以上となる位置を、区切り位置と判定する（ステップＳ２７）。
【選択図】図５

Description

本発明は、文字列を形態素単位に分割する文字列分割装置、モデルファイル学習装置および文字列分割システムに関する。

従来、音声入力による曲名検索システムでは、ユーザが所望の曲名を発話することにより入力される発話データを、音声認識辞書を用いて文字列に変換している。
例えば、曲名検索システムに、曲名「ホワイトクリスマス」という発話データが入力された場合には、「ホワイトクリスマス」という発話データに対応する情報が音声認識辞書に登録されていれば、「ホワイトクリスマス」という発話データを、対応する文字列に適切に変換することができる。

一方、曲名「ホワイトクリスマス」の一部、例えば、「ホワイト」または「クリスマス」という発話データが曲名検索システムに入力された場合には、「ホワイト」または「クリスマス」という発話データに対応する情報が音声認識辞書に登録されていなければ、「ホワイト」または「クリスマス」という発話データを、対応する文字列に適切に変換することができない可能性がある。

そのため、例えば、曲名検索システムにおいて、「ホワイト」または「クリスマス」という発話データが入力された場合には、「ホワイト」または「クリスマス」という文言を曲名に含む、曲名全てをリストアップするように構成されていたとしても、曲名検索システムでは、「ホワイト」または「クリスマス」という発話データを、適切な文字列に変換することができないため、「ホワイトクリスマス」という曲名をリストアップすることができない可能性がある。これはすなわち、ユーザが、「ホワイトクリスマス」という曲名を検索する目的で、「ホワイト」または「クリスマス」というように、曲名「ホワイトクリスマス」の一部のみを発話した場合には、「ホワイトクリスマス」という曲名を検索することができないことになり、使い勝手が悪い。

「ホワイト」または「クリスマス」というように、曲名「ホワイトクリスマス」の一部のみが発話された場合でも「ホワイトクリスマス」という曲名を検索することのできる曲名検索システムを実現するためには、曲名全体だけでなく「ホワイト」、「クリスマス」というように曲名の一部に相当する発話データに対応する情報についても、音声認識辞書に登録しておく必要がある。

そのためには、たとえば新曲が出るとき等のタイミングで、新曲名（例えばホワイトクリスマス）を形態素に分割した、「ホワイト」、「クリスマス」といった単語を、音声認識辞書に登録する必要があり、さらに、この作業を新曲が出るときなどのタイミングでその都度行う必要がある。
ここで、新曲名を形態素ごとに分割する方法として、形態素解析方法を用いることが考えられる。

しかしながら、形態素解析用の辞書を用いた一般的な形態素解析方法にあっては、形態素解析を正しく行うためには、形態素解析用の辞書を新曲名に合わせて更新する必要がある。すなわち、新曲対応を行う都度、形態素解析用の辞書の更新に手間がかかることになり現実的ではない。つまり、形態素解析用の辞書を用いた一般的な形態素解析方法では、品詞などの情報付きの単語リストなどを辞書として形態素解析を行うとともに、文法のルールや、漢字やカタカナとひらがなとのつながりなどを考慮して解析している。そのため、漢字や助詞などを含む「文」などにおいては前後の単語のつながりなどを考慮して形態素に分割することができるため、比較的精度良く形態素に分割することができる。しかしながら、一般に曲名の場合、「文」というよりは、助詞などを含まない複数の単語を並べたものが多い。また、新曲名が、漢字を含まずにカタカナあるいはひらがなのみで表記されている場合、すなわち、新曲名に含まれる漢字が表音文字列に書き下して表記されている場合などには、「文」の形態素解析に適した一般的な形態素解析方法を用いて新曲名を形態素解析しても、形態素に正しく分割することができない可能性がある。

そのため、複数の単語を並べたような曲名について、正しく形態素解析を行うためには、形態素解析用の辞書を新曲名に合わせて更新する必要がある。
一方、形態素解析用の辞書を用いずに解析を行う方法として、例えば、特許文献１が提案されている。

特開平１０−３２６２７５号公報

上記形態素解析用の辞書を用いずに解析を行う方法にあっては、Ｎ−ｇｒａｍの文字列の部分連鎖確率を格納した拡張文字テーブルに基づき、形態素解析を行っており、全ての拡張文字列について連鎖確率を求める必要がある。つまり、演算過程における演算結果を格納するための大容量の一時記憶領域を必要とし、また演算処理負荷が大きく、比較的長い処理時間を要するという問題がある。

そのため、より短時間で、形態素に分割することの可能な方法が望まれていた。
そこで、この発明は、上記従来の未解決の問題に着目してなされたものであり、表音文字列からなる文字列データを、比較的短時間で的確に形態素に分割することの可能な、文字列分割装置、モデルファイル学習装置および文字列分割システムを提供することを目的としている。

本発明の一態様は、設定された文字数の文字列からなるキーと当該文字列の文字間が区切りとなる確率を表す区切り確率とが対応付けられたものが複数格納されてなるモデルファイルを読み込むモデルファイル読み込み部と、表音文字列からなる分割対象データを入力する分割対象データ入力部と、前記モデルファイル読み込み部で読み込んだモデルファイルをもとに、前記分割対象データ入力部で入力した前記分割対象データを構成する文字列における文字間の区切り確率を検出する区切り確率検出部と、当該区切り確率検出部で検出した前記分割対象データを構成する文字列における文字間の区切り確率に基づき、前記分割対象データを構成する文字列の区切り位置を判定する区切り判定部と、を備えることを特徴とする文字列分割装置である。

前記区切り判定部は、前記分割対象データを構成する文字列における文字間の区切り確率が予め設定した閾値以上である位置を前記区切り位置と判定し、前記閾値は変更可能に構成されていてよい。
前記区切り判定部は、前記分割対象データの、前記区切り判定部で判定された区切り位置間の文字列の長さを検出し、当該文字列の長さに応じて前記閾値を変更して前記区切り位置を再判定するようになっていてよい。

前記区切り確率検出部は、前記分割対象データを構成する文字列の端から順に１文字ずつずらしながら予め設定した数の文字列をパターンとして抽出するパターン抽出部と、当該パターンそれぞれについて前記モデルファイルをもとに前記区切り確率を検出する検出部と、前記分割対象データを構成する文字列のうちの同一の文字間を文字列に含むパターンそれぞれについて検出された前記区切り確率に基づき、前記同一の文字間位置における前記区切り確率の平均値を演算する平均値演算部と、を備え、前記区切り判定部は、当該平均値演算部で演算された区切り確率の平均値に基づき、前記区切り位置を判定するものであってよい。

本発明の他の態様は、表音文字列からなる文字列データに対して当該文字列データの文字列の区切り位置を表す区切り位置情報が付加されてなる区切り付き文字列データを入力する区切り付き文字列データ入力部と、当該区切り付き文字列データ入力部で入力された区切り付き文字列データから、前記区切り位置情報を抽出する区切り情報抽出部と、前記区切り付き文字列データから指定された文字数の文字列をパターンとして抽出し、当該パターンを構成する文字列の文字間、前記パターンを構成する文字列の先頭文字の前側位置および終端文字の後側位置における区切り確率を、前記区切り情報抽出部で抽出した前記区切り位置情報に基づき検出し、前記パターンと当該パターンを構成する文字列の各位置における区切り確率とを対応付けてモデルファイルを作成するモデルファイル作成部と、を備えることを特徴とするモデルファイル学習装置である。

前記モデルファイル作成部は、前記区切り付き文字列データから指定された文字数の文字列をパターンとして抽出し、当該パターンを構成する文字列の文字間、前記パターンを構成する文字列の先頭文字の前側位置および終端文字の後側位置における区切り確率を、前記区切り情報抽出部で抽出した前記区切り位置情報に基づき検出する区切り確率演算部と、異なる前記区切り付き文字列パターンから抽出された共通の文字列からなる複数のパターンについて、当該パターンについて検出された前記区切り確率に基づき、前記共通の文字列の文字間、前記共通の文字列の先頭文字の前側位置および終端文字の後側位置それぞれの各位置における区切り確率の平均値を演算する平均値演算部と、を備え、複数のパターンに共通の文字列については、前記平均値演算部で演算された前記各位置における区切り確率の平均値と前記共通の文字列とを対応付けて、前記モデルファイルを作成するものであってよい。

本発明の他の態様は、上記いずれかの態様の文字列分割装置と、上記いずれかの態様のモデルファイル学習装置と、を備え、前記文字列分割装置は、前記モデルファイル学習装置で作成したモデルファイルを用いて前記分割対象データの文字列における文字間の区切り確率を検出することを特徴とする文字列分割システムである。

本発明によれば、予め生成されたモデルファイルをもとに、分割対象データ入力部で入力した分割対象データを構成する文字列における文字間の区切り確率を検出し、この区切り確率に基づき、分割対象データを構成する文字列の区切り位置を判定するため、表音文字列からなる比較的短い文字列であっても的確に形態素に分割することができる。

また、表音文字列からなる文字列データに対してこの文字列データの文字列の区切り位置を表す区切り位置情報が付加されてなる複数の区切り付き文字列データから、指定された文字数の文字列からなるパターンを抽出し、このパターンを構成する文字列の文字間、文字列の先頭文字の前側位置および終端文字の後側位置における区切り確率を、区切り位置情報に基づき検出し、パターンとパターンを構成する文字列の各位置における区切り確率とを対応付けてモデルファイルを作成したため、区切り付き文字列データにおける区切り位置を反映したモデルファイルを容易に作成することができる。

本発明を適用した文字列分割システムの一例を示す構成図である。モデルファイル学習部の処理手順の一例を示すフローチャートである。パターンと区切り確率との対応の一例である。区切り位置検出結果の一例である。文字列分割装置の処理手順の一例を示すフローチャートである。文字列分割装置の処理手順のその他の例を示すフローチャートである。区切り位置判定用の閾値と、文字列分割装置により得られた区切り位置間の文字列の平均長さとの関係を示したものである。

以下、図面を参照して本発明の実施の形態を説明する。
本実施形態は、本発明の文字列分割システムを用いて、音声認識辞書を作成する場合について説明する。
この音声認識辞書は、発話データに対応する曲名を特定する曲名検索システムで用いられる音声認識辞書である。曲名検索システムでは、発話データに対応する文字列を、音声認識辞書を用いて取得し、取得した文字列に基づき発話データに対応する曲名を検索するようになっている。

＜文字列分割システム１の構成＞
図１は、文字列分割システム１の一例を示す構成図である。
文字列分割システム１は、文字列分割装置２と、文字列分割装置２で用いるモデルファイル作成するモデルファイル学習装置３と、を備える。
ここでは、初めに、モデルファイル学習装置３について説明した後、文字列分割装置２について説明する。

＜モデルファイル学習装置３の構成および動作＞
モデルファイル学習装置３は、図１に示すように、区切り付き文字列データ入力部３１と、区切り情報抽出部３２と、モデルファイル作成部３３と、モデルファイル記憶部３４と、を備える。

区切り付き文字列データ入力部３１は、区切り付き文字列データを、学習文として入力する。この区切り付き文字列データとして、例えば、以下のような文字列データがあげられる。
学習文１：カイガイ／ハッシン／ナド／アニメ／シンコウ／ニ／チカラ／ヲ／コメル
学習文２：カイテン／ドア／ニ／サワル
学習文３：ブドウカン／コンサート／ナド／アニバーサリー／イヤー／ヘ／ムケタ／キカク
学習文４：ドア／ニ／テ／ヲ／カケル
学習文５：ペット／アンド／アニマル／ノ／セイト
学習文６：アナタ／ワ／ダレ

すなわち区切り付き文字列データは、例えば、多数の表音文字列で表した文字列データに対して、意味のある文字のまとまりごと、すなわち形態素ごとに、文字の区切りを表す区切り記号「／」が挿入された、文字列データである。
区切り付き文字列データ入力部３１は、例えば、キーボードであって、ユーザがキーボード操作を行い、表音文字列からなる文字列データを入力し、且つこの文字列データに対して区切り記号「／」を挿入することによって、区切り付き文字列データを入力する。

あるいは、区切り付き文字列データ入力部３１は、外部装置と通信を行う通信機能を備えており、区切り付き文字列データを外部装置から入力するようにしてもよい。また、外部装置から、表音文字列からなる文字列データのみを入力し、区切り付き文字列データ入力部３１において、ユーザが区切り記号「／」のみを挿入するようにしてもよい。

区切り情報抽出部３２は、区切り付き文字列データ入力部３１により入力された区切り付き文字列データからなる学習文それぞれについて、先頭から順に指定ｇｒａｍ数Ｎの文字列を抽出し且つ抽出開始位置を１つずつずらして指定ｇｒａｍ数Ｎの文字列を順次抽出し、抽出した指定ｇｒａｍ数Ｎの文字列ごとに、この文字列に含まれる区切り記号「／」の位置情報を取得し、この位置情報に基づき区切り確率を検出する。なお、区切り記号「／」は文字として扱わない。

また、例えば、「ァィゥェォャュョヮンー」などについては直前で区切りになることはないので、前の文字に連結して１文字として扱う。例えば、「ディ」、「ファ」など拗音、「タッ」、「ハッ」など促音、「カー」、「バー」などの長音、「カン」、「パン」など撥音は、これら拗音等をその前の文字に含めて１文字とする。また、「ニュース」など、拗音に続けて長音を含む場合には、拗音および長音を拗音の前の文字に含めて１文字とする。すなわち、「ニュース」の場合には２文字とする。

また、区切り付き文字列データの先頭および終端は、通常単語や文の切れ目となるため、無条件に分割位置とみなす。
例えば、区切り付き文字列データが前記学習文６「アナタ／ワ／ダレ」の場合には、指定ｇｒａｍ数Ｎを“３”とすると、指定ｇｒａｍ数Ｎの文字列からなる以下の４パターンが得られる。
「／アナタ／」、「ナタ／ワ／」、「タ／ワ／ダ」、「／ワ／ダレ／」

そして、各パターンについて、区切り記号「／」を除去した文字列をキーとする。また、各パターンにおいて隣接する２つの文字間に区切り記号「／」が挿入されている場合には、これら文字間の区切り確率を「１．０」とする。隣接する２つの文字間に区切り記号「／」が挿入されていない場合には、これら文字間の区切り確率を「０．０」とする。また、各パターンの文字列の前または後に区切り記号「／」がある場合には、区切り記号「／」に隣接する文字の、区切り記号「／」側の区切り確率を「１．０」とする。

例えば、上記４パターンの場合には、各区切り確率は、以下のようになる。
「／アナタ／」 ……「１．０：０．０：０．０：１．０」
「ナタ／ワ／」 ……「０．０：０．０：１．０：１．０」
「タ／ワ／ダ」 ……「０．０：１．０：１．０：０．０」
「／ワ／ダレ／」……「１．０：１．０：０．０：１．０」
そして、キーと、区切り確率とを対応付ける。例えば、第１パターン「／アナタ／」の場合には、キーは「アナタ」となり、区切り確率は「１．０：０．０：０．０：１．０」となる。

この処理を、入力された切り付き文字列データ（学習文）全てについて行い、キーとこれに対応する区切り確率とを得る。
モデルファイル作成部３３は、区切り情報抽出部３２で得られた全てのキーとこれに対応する区切り確率とからなるモデルファイルＭＦを作成し、これをモデルファイル記憶部３４に格納する。

ここで、例えば、区切り付き文字列データとして前記学習文１〜５が入力された場合には、各学習文１〜５それぞれに「ドアニ」という文字列が含まれるため、各学習文１〜５のそれぞれにおいてキー「ドアニ」と、区切り確率とが得られることになる。
この場合には、各学習文１〜５により得られたキー「ドアニ」に対応する区切り確率について平均値を求め、これをキー「ドアニ」の平均区切り確率とする。

すなわち、学習文１〜５において、キー「ドアニ」の区切り確率が、以下に示すとおりであるとすると、各学習文のキーの同一位置における区切り確率それぞれを平均した値が、平均区切り確率となる。例えば、各学習文における文字「ド」の前側位置における区切り確率は、それぞれ「０．０，１．０，０．０，０．０，０．０」であるため、これらの平均値「０．２」が平均区切り確率となる。すなわち、学習文１〜５における「ドアニ」の各位置における平均区切り確率は、「０．２：０．６：０．４：０．４」となる。

学習文１：ド／アニ ……「０．０：１．０：０．０：０．０」
学習文２：／ドア／ニ／……「１．０：０．０：１．０：１．０」
学習文３：ド／アニ ……「０．０：１．０：０．０：０．０」
学習文４：ドア／ニ／ ……「０．０：０．０：１．０：１．０」
学習文５：ド／アニ ……「０．０：１．０：０．０：０．０」
平均区切り確率 ……「０．２：０．６：０．４：０．４」

なお、他の学習文にもキー「ドアニ」が含まれる場合、また、１つの学習文に複数の同じキーが含まれる場合にも、これらキーの区切り確率も含めて平均区切り確率を演算する。また、既に、モデルファイルとして、キー「ドアニ」が登録されている場合には、登録されている区切り確率も含めて平均区切り確率を演算する。
そして、このようにして求めた平均区切り確率を、このキー（上記の場合には「ドアニ」）の区切り確率としてモデルファイルＭＦを作成する。

次に、モデルファイル学習装置３の処理手順を、図２のフローチャートを伴って説明する。
モデルファイル学習装置３では、モデルファイルＭＦを作成する場合には、まず、区切り付き文字列データを入力する（ステップＳ１１）。

次いで、ステップＳ１２に移行し、入力した区切り付き文字列データの先頭から指定ｇｒａｍ数Ｎの文字列を抽出する。ここで、指定ｇｒａｍ数Ｎは、予め設定しておく。この指定ｇｒａｍ数Ｎは、大きな値に設定すると区切り文字列データを分割して得られるパターンの文字数が多くなり、指定ｇｒａｍ数Ｎを小さな値に設定すると、パターンの文字数が少なくなるため、形態素解析において一般的に用いられているｇｒａｍ数Ｎ＝３が好ましい。

例えば、指定ｇｒａｍ数ＮをＮ＝３とし、区切り付き文字列データが前記学習文６「アナタ／ワ／ダレ」の場合には、前述のように第１パターン「／アナタ／」が得られる。
次に、抽出したパターンについて、区切り記号「／」の挿入位置を抽出する（ステップＳ１３）。
続いて、区切り付き文字列データにおいて、抽出開始文字を１文字進め（ステップＳ１４）、抽出開始文字から文字列を抽出することができる場合には、区切り付き文字列データの終端ではないとして（ステップＳ１５）、ステップＳ１２に戻る。

そして、抽出開始文字から指定ｇｒａｍ数Ｎの文字列を抽出し、区切り記号「／」の挿入位置を抽出する（ステップＳ１３）。ステップＳ１２〜ステップＳ１４の処理を、区切り付き文字列データの終端になるまで繰り返し行う。これにより、第２パターン「ナタ／ワ／」、第３パターン「タ／ワ／ダ」、第４パターン「／ワ／ダレ／」が抽出され、各パターンについて、区切り記号「／」の挿入位置が抽出される。

そして、ステップＳ１３で、第４パターンの文字列「／ワ／ダレ／」について区切り記号「／」が抽出された後、ステップＳ１４で抽出開始文字を１文字進めると、区切り付き文字列データの終端に達していることから、ステップＳ１５からステップＳ１６に移行する。そして、ステップＳ１２で抽出した全パターンから得られるキーについて、区切り確率を求める。

そして、得られた全てのキーとこれに対応する区切り確率とから、モデルファイルＭＦを作成し、これをモデルファイル記憶部３４に格納する（ステップＳ１７）。
このとき、同一の文字列からなるキーが複数ある場合には、区切り確率の平均値である平均区切り確率を求め、これを、このキーの区切り確率とする。また、既にモデルファイルＭＦに同一キーが登録されている場合には、登録されている区切り確率を含めて平均区切り確率を求め、これを区切り確率とする。

以上の処理によって、モデルファイルＭＦには、学習文として入力された区切り付き文字列データから得られるキーとこれに対応する区切り確率とが、登録されることになる。
なお、上記実施形態では、区切り付き文字列データの先頭および終端は、無条件に分割位置とみなすようにしているが、区切り付き文字列データの先頭および終端に「／」が挿入されていれば分割位置、挿入されていなければ分割位置ではないと判断するようにしてもよい。

また、上記実施形態では、区切り付き文字列データにおいて、拗音、撥音、長音などをその前の文字に含めて１文字とする場合について説明したがこれに限らず、拗音、撥音なども１文字として扱うように構成することも可能である。
また、区切り付き文字列データにおいて、特に重要な単語については、重みを付けて、モデルファイルＭＦを作成するように構成してもよい。例えば、重要な単語を含む学習文を多数用いて、モデルファイルＭＦを作成すればよい。

また、上記実施形態では、区切り位置を表す情報として区切り記号「／」を用いる場合について説明したが、これに限るものではなく、他の記号を区切り記号として用いてもよく、また、例えば、文字列の先頭から３番目の文字と４番目の文字との間などといった区切り位置を表す位置情報を、表音文字列からなる文字列データに付加するように構成してもよい。

＜文字列分割装置２の構成および動作＞
次に、文字列分割装置２について説明する。
文字列分割装置２は、図１に示すように、分割対象データ入力部２１と、モデルファイル読み込み部２２と、区切り確率検出部２３と、区切り判定部２４と、表示装置２５と、を備える。

分割対象データ入力部２１は、形態素への分割対象である分割対象データを入力する入力部である。分割対象データは、新曲名が、表音文字列で記述されたデータ、すなわち、漢字を含まないカタカナのみあるいは平仮名のみからなる文字列データである。分割対象データ入力部２１は、例えば、通信回線を介して外部装置から表音文字列からなる新曲名の文字列データを入力する。あるいは、分割対象データ入力部２１はキーボードなどの入力装置であって、ユーザが入力装置を操作し、表音文字列からなる新曲名の文字列データを入力すること、などにより入力される。

モデルファイル読み込み部２２は、モデルファイルＭＦをモデルファイル記憶部３４から読み込む。つまり、モデルファイル学習装置３で生成したモデルファイルＭＦを読み込む。
区切り確率検出部２３は、分割対象データ入力部２１で読み込んだ分割対象データを、指定ｇｒａｍ数Ｎの文字列ごとに抽出し、且つ抽出開始文字を１文字ずつずらして、指定ｇｒａｍ数Ｎの文字列を順次抽出する。

なお、この指定ｇｒａｍ数Ｎは、モデルファイルＭＦ作成時の指定ｇｒａｍ数Ｎと同数である。
つまり、例えば、分割対象データとして、「ブランドアニマルガー」が入力された場合には、分割対象データの先頭から指定ｇｒａｍ数Ｎの文字列を抽出し、以後、抽出開始文字を１つずつずらしながら指定ｇｒａｍ数Ｎの文字列を順に抽出する。

つまり、分割対象データが「ブランドアニマルガー」の場合には、「ブランド」、「ランドア」、「ドアニ」、「アニマ」、「ニマル」、「マルガー」の６パターンを抽出する。
そして、分割対象データを分割して得た指定ｇｒａｍ数Ｎの文字列それぞれについて、これと同じ文字列からなるキーを、モデルファイルＭＦから検索し、対応する区切り確率を得る。つまり、分割対象データが「ブランドアニマルガー」の場合には、前述の６パターンのキーそれぞれについて、モデルファイルＭＦから区切り確率を得る。

たとえば、モデルファイルＭＦには、キー「ドアニ」に対応する区切り確率として、「０．２：０．６：０．４：０．４」が登録されている。そのため、分割対象データ「ブランドアニマルガー」から得られたパターン「ドアニ」の区切り確率は「０．２：０．６：０．４：０．４」として特定される。なお、モデルファイルＭＦに、パターンに対応する区切り確率が登録されていない場合、すなわち未知語である場合には、このパターンに対応する区切り確率は、零とする。このように、未知語については区切り確率を零とすることによって、分割対象データに未知語が含まれる場合に、未知語を構成する文字列内が、区切り位置として検出されることが抑制され、未知語は一まとまりの単語として区切り判定されやすくすることができる。

区切り判定部２４は、区切り確率検出部２３で検出した、分割対象データから得た指定ｇｒａｍ数Ｎの文字列それぞれに対応する「区切り確率」に基づき、区切り位置の判定を行う。そして、区切り位置の判定結果を表示装置２５に出力する。
具体的には、分割対象データから得た指定ｇｒａｍ数Ｎの文字列それぞれに対応する区切り確率について、分割対象データの同一の文字間の区切り確率どうしを加算し、その平均を演算することにより、分割対象データにおける区切り確率の平均値を求める。

そして、区切り確率の平均値が予め設定した閾値以上となる文字間を、区切り位置とする。この閾値は、例えば分割対象データに対する過去の区切り位置の検出結果などに基づいて予め設定される値である。
つまり、例えば分割対象データが「ブランドアニマルガー」の場合、前述のように６パターンのキーそれぞれについて区切り確率が得られる。

ここで、分割対象データの「ブランドアニマルガー」を分割して得られる指定ｇｒａｍ数Ｎ（Ｎ＝３）の文字列からなる６個のパターンそれぞれの区切り確率を以下であるものとする。
第１パターン「ブランド」 ……「０．８：０．０：０．２：０．８」
第２パターン「ランドア」 ……「０．０：０．０：０．５：０．０」
第３パターン「ドアニ」 ……「０．２：０．６：０．４：０．４」
第４パターン「アニマ」 ……「０．５：０．０：０．１：０．２」
第５パターン「ニマル（未知語）」……「０．０：０．０：０．０：０．０」
第６パターン「マルガー」 ……「０．２：０．０：０．７：０．８」

この第１〜第６の各パターンについて、分割対象データにおける同一の文字間の区切り確率を表すものどうしを対応させると、図３に示すようになる。
図３に示すように、分割対象データにおいて、最初の文字「ブ」の前側位置での区切り確率が得られているパターンは、第１パターン「ブランド」だけであるから、文字「ブ」の前側位置での区切り確率の平均値は、第１パターンにより得られた区切り確率「０．８」となる。

分割対象データの「ブ」と「ラン」との間での区切り確率が得られているパターンは、第１パターン「ブランド」と第２パターン「ランドア」であるから、第１パターンにおける「ブ」と「ラン」との間の区切り確率「０．０」と、第２パターンにおける区切り確率「０．０」とから、区切り確率の平均値は、「０．０」となる。
同様に、分割対象データの「ラン」と「ド」との間の区切り確率の平均値は、第１パターンにおける区切り確率「０．２」と、第２パターンにおける区切り確率「０．０」と、第３パターンにおける区切り確率「０．２」とから、区切り確率の平均値は、「０．１３３」となる。

分割対象データの「ド」と「ア」との間の区切り確率の平均値は、第１パターンにおける区切り確率「０．８」と、第２パターンにおける区切り確率「０．５」と、第３パターンにおける区切り確率「０．６」と、第４パターンにおける区切り確率「０．５」と、から、区切り確率の平均値は、「０．６」となる。
分割対象データの「ア」と「ニ」との間の区切り確率の平均値は、第２パターンにおける区切り確率「０．０」と、第３パターンにおける区切り確率「０．４」と、第４パターンにおける区切り確率「０．０」と、第５パターンにおける区切り確率「０．０」と、から、区切り確率の平均値は、「０．１」となる。

分割対象データの「ニ」と「マ」との間の区切り確率の平均値は、第３パターンにおける区切り確率「０．４」と、第４パターンにおける区切り確率「０．１」と、第５パターンにおける区切り確率「０．０」と、第６パターンにおける区切り確率「０．２」と、から、区切り確率の平均値は、「０．１７５」となる。
分割対象データの「マ」と「ル」との間の区切り確率の平均値は、第４パターンにおける区切り確率「０．２」と、第５パターンにおける区切り確率「０．０」と、第６パターンにおける区切り確率「０．０」と、から、区切り確率の平均値は、「０．０６７」となる。

分割対象データの「ル」と「ガー」との間の区切り確率の平均値は、第５パターンにおける区切り確率「０．０」と、第６パターンにおける区切り確率「０．７」と、から、区切り確率の平均値は、「０．３５」となる。
分割対象データの「ガー」の後の位置での区切り確率の平均値は、第６パターンにおける区切り確率「０．８」から、区切り確率の平均値は、「０．８」となる。
したがって、分割対象データの前後および文字間の区切り確率の平均値は、図３の最下行に示すように、「０．８：０．０：０．１３３：０．６：０．１：０．１７５：０．０６７：０．３５：０．８」となる。

そして、予め設定した閾値と比較し、区切り確率の平均値が閾値以上となる位置を、区切り位置と判定する。例えば分割対象データの「ブランドアニマルガー」の場合、閾値を「０．３」とすると、区切り確率の平均値が閾値「０．３」以上となるのは、図３に示すように、「ブ」の前（０．８）、「ド」と「ア」との間（０．６）、「ル」と「ガー」との間（０．３５）、「ガー」の後（０．８）である。したがって、図４（ａ）に示すように、「／」が挿入された位置が区切り位置となる。

また、閾値を「０．６」とすると、区切り確率の平均値が閾値「０．６」以上となるのは、図３に示すように、「ブ」の前（０．８）、「ド」と「ア」との間（０．６）、「ガー」の後（０．８）である。したがって、図４（ｂ）に示すように、「／」が挿入された位置が区切り位置となる。
前記閾値は、予め設定しておいてもよく、また、実際の区切り位置検出結果に応じて、閾値を切り替えるようにしてもよい。例えば、閾値を設定するためのキーボードなどの閾値入力装置を設ける。この閾値入力装置をユーザが操作することにより、上述のように、閾値「０．３」と「０．６」との間で切り替え、良好な結果を得ることのできた区切り位置検出結果を選択するようにしてもよい。

このように閾値入力装置を設けることによって、ユーザが閾値を任意に設定できる。したがって、例えば、予め設定された閾値の初期値に基づいて、区切り位置の判定が行われ、区切り位置の判定結果が表示装置２５に表示された場合に、区切り位置の判定結果にしたがって区切られた結果得られる区切り位置間の文字列の長さが、長い、あるいは短いなどの場合に、閾値入力装置において閾値を変更することができる。したがって、分割対象データを、所望の長さの文字列に区切ることができる。

次に、文字列分割装置２の処理手順を、図５のフローチャートを伴って説明する。
分割対象データの分割を行う場合には、まず、モデルファイル記憶部３４から、モデルファイルＭＦを読み込む（ステップＳ２１）。
続いて、ステップＳ２２に移行し、分割対象データ入力部２１により分割対象データを入力する（ステップＳ２２）。この分割対象データの先頭から、指定ｇｒａｍ数Ｎの文字列を抽出する（ステップＳ２３）。これを第１パターンとし、第１パターンの文字列をキーとする、区切り確率を、モデルファイルＭＦから取得し所定の記憶領域に記憶する（ステップＳ２４）。

次いで、指定ｇｒａｍ数Ｎの文字列の抽出開始位置を１文字進める（ステップＳ２５）。
続いて、ステップＳ２６に移行し、区切り確率の平均値を算出する。具体的には、所定の記憶領域に記憶している、分割対象データの指定ｇｒａｍ数Ｎの文字列からなるパターンのうち、最新パターンの文字列の先頭の文字の前側位置を、区切り確率の平均値の演算対象位置とする。そして、記憶領域に記憶している各パターンのうち、前記演算対象位置を含む全てのパターンについて演算対象位置の区切り確率を求め、各パターンの演算対象位置の区切り確率の平均値を演算する。また、最新パターンが分割対象データの末尾の指定ｇｒａｍ数Ｎの文字列からなる末尾パターンである場合には、末尾パターンの各文字間、および末尾の文字の後側位置のそれぞれについても同様に区切り確率の平均値を演算する。

つまり、分割対象データが、図３の「ブランドアニマルガー」であるとき、最新パターンが第１パターン「ブランド」の場合には、演算対象位置は、「ブ」の前側位置になる。この時点で記憶領域には、第１パターンしか格納されていないので、第１パターンの文字列をキーとする区切り確率から特定される「ブ」の前側位置における区切り確率「０．８」が、区切り確率の平均値となる。

最新パターンが第２パターン「ランドア」の場合には、演算対象位置は、「ラン」の前側位置となる。この演算対象位置は、第１パターンおよび第２パターンに含まれるため、第１パターンから特定される「ブ」と「ラン」との間の区切り確率「０．０」と、第２パターンから特定される「ラン」の前側位置の区切り確率「０．０」との平均値が区切り確率の平均値となる。

同様に、最新パターンが第３パターン「ドアニ」の場合には、演算対象位置は、「ド」の前側位置となり、この演算対象位置は、第１パターン、第２パターン、第３パターンに含まれるため、第１パターンから特定される「０．２」と、第２パターンから特定される「０．０」と、第３パターンから特定される「０．２」と、の平均値「０．１３３」が区切り確率の平均値となる。

最新パターンが第４パターン「アニマ」の場合には、演算対象位置は、「ア」の前側位置となり、この演算対象位置は、第１から第４パターンに含まれるため、各パターンから特定される「０．８」、「０．５」、「０．６」、「０．５」の平均値「０．６」が区切り確率の平均値となる。
最新パターンが第５パターン「ニマル」の場合には、演算対象位置は、「ニ」の前側位置となり、この演算対象位置が含まれる第２から第５パターンから特定される「０．０」、「０．４」、「０．０」、「０．０」の平均値「０．１」が区切り確率の平均値となる。

最新パターンが第６パターン「マルガー」の場合には、演算対象位置は、「マ」の前側位置となり、この演算対象位置が含まれる第３から第６パターンから特定される「０．４」、「０．１」、「０．０」、「０．２」の平均値「０．１７５」が区切り確率の平均値となる。
そして、第６パターンは末尾パターンであるから、第６パターンの、「マ」と「ル」との間、「ル」と「ガー」との間、「ガー」の後側位置、についてそれぞれを演算対象位置として区切り確率の平均値を求める。

その結果、「マ」と「ル」との間、「ル」と「ガー」との間、「ガー」の後側位置について、区切り確率の平均値「０．０６７」、「０．３５」、「０．８」が求まる。
このようにして、最新パターンについて、区切り確率の平均値を求めたならば、ステップＳ２７に移行し、予め設定した閾値と区切り確率の平均値とを比較し、閾値を超える演算対象位置を、区切り位置と判定する。なお、最新パターンが末尾パターンである場合には、末尾パターンの文字列先頭の文字の前側位置における区切り確率の平均値だけでなく、文字間および末尾の文字の後側位置における区切り確率の平均値についても閾値と比較する。この比較結果は所定の記憶領域に格納しておく。

そして、末尾パターンについて、閾値との比較が終了していなければ、ステップＳ２３に戻って、次のパターンの抽出を行い、末尾パターンについて閾値との比較が終了したならば、ステップＳ２８からステップＳ２９に移行し、区切り位置の判定結果を表示装置２５に出力する。すなわち、例えば、図４（ａ）、（ｂ）に示すように、分割対象データの「ブランドアニマルガー」という文字列において、区切り位置と判定された位置に、区切り記号「／」を挿入して表示することにより、結果表示を行う。
なお、図５のフローチャートでは、パターン毎に、区切り確率を読み込んだ後、区切り位置判定を行う構成としているが、これに限るものではない。

例えば、図５のステップＳ２６の区切り確率の平均値を算出する処理とステップＳ２７での区切り位置判定の処理とを行う区切り位置判定用の処理装置を別途設け、ステップＳ２４でパターンの文字列に対応する区切り確率を求めた後、求めた区切り確率をパターンと対応付けて所定の区切り確率記憶領域に格納するように構成する。そして、区切り確率記憶領域にパターンと区切り確率とが格納されるタイミングで、図５のステップＳ２６の区切り確率の平均値を算出する処理とステップＳ２７での区切り位置判定の処理とを、区切り位置判定用の処理装置で実行する構成とする。すなわち、分割対象データの各パターンの区切り確率の検出処理と、区切り確率の平均値の算出および区切り位置判定の処理とを並行して行うように構成してもよい。

これら分割対象データの各パターンの区切り確率の検出処理と、区切り確率の平均値の算出および区切り位置の判定の処理とを並行して行うことによって、分割対象データに対する区切り位置の検出に要する所要時間を短縮することができる。そのため、新曲の発売タイミングなどに合わせて大量の曲名を音声認識辞書に登録するような場合であっても、分割対象データの形態素への分割に要する所要時間の短縮を図ることができるため、新曲の発売対応に要する所要時間を短縮することができる。

なお、区切り確率の検出処理については、モデルファイルにおいて、分割対象データの各パターンにおけるキー（つまり、各パターンにおいて、区切り記号「／」を除去した文字列）と、このパターンの区切り確率との対応を、ハッシュテーブルを用いて管理することで、より高速に分割対象データの各パターンの区切り確率を検出することができる。

また、例えば、分割対象データの各パターンの区切り確率の検出処理を、各パターン間で並行して実行するように構成することも可能である。すなわち、複数の処理部を設け、各処理部において、分割対象データからの指定ｇｒａｍ数Ｎの文字列の抽出開始位置を一つずつずらして設定し、複数の処理部において、異なるパターンについて区切り確率の検出を行うように構成してもよい。さらに、各処理部で検出した区切り確率を共通の記憶領域に格納する構成とし、各処理部において、共通の記憶領域に格納された複数のパターンをもとに、区切り確率の平均値を演算しさらに閾値と比較して区切り位置であるかを判定する処理までを各処理部で実行するように構成してもよい。このように構成することによって、分割対象データに対する区切り位置判定に要する全体の処理時間の短縮を図ることができる。

すなわち、区切り位置判定は、指定ｇｒａｍ数Ｎの文字列の単位で処理を行っており、区切り確率の平均値の算出を行う際に、他の指定ｇｒａｍ数Ｎの文字列における区切り確率を利用するだけである。そのため、上述のように、区切り位置判定に伴い実行される処理を並行して行うことができる。その結果、分割対象データに対する処理時間の短縮を図ることができる。すなわち文字列分割装置２の高速化を図ることができる。
また、図５のフローチャートでは、予め設定した閾値に基づいて区切り位置判定を行う構成としているが、これに限るものではない。

前述のように、閾値を設定するための閾値入力装置を設け、ユーザが閾値を任意に設定できるようにしてもよい。また、例えば図６に示すように、ステップＳ２４で最新パターンの区切り確率を読んだときに、区切り確率の記憶領域にパターンと対応付けて区切り確率を格納し、抽出開始位置を１文字進めた後（ステップＳ２５）、ステップＳ３１に移行し、分割対象データの末尾に達していなければ、ステップＳ２３に戻り、分割対象データの末尾に達していれば、ステップＳ３２に移行し、所定の区切り確率の記憶領域にパターンと対応付けて格納した、全てのパターンの区切り確率をもとに、分割対象データの各文字間および先頭文字の前側位置および末尾の文字の後側位置それぞれを演算対象位置としてそれぞれについての区切り確率の平均値を求め（ステップＳ３３）、求めた平均値と閾値と比較し、区切り位置判定を行う（ステップＳ３４）。

このとき、閾値は、分割対象データに対する区切り位置検出結果から区切り位置間の文字列の平均長さがわかっているのであれば、この平均的な長さに近づくように、調整すればよい。つまり、区切り位置検出結果がえられたとき、この検出結果に基づき区切り位置間の文字列の平均長さを演算する処理を行う。そして、その結果得られた、区切り位置間の文字列の平均長さに基づき、閾値を設定する。
例えば、閾値として基準値「０．５」を用いて、区切り位置判定を行ったが、区切り位置間の文字列の平均長さが目標値よりも短い場合には、細かく分割しすぎであるため、閾値を「０．６」に調整するなどの処理を行う。

図７は、分割対象データが「ブランドアニマルガー」である場合の、区切り位置判定用の閾値と、得られた区切り位置間の文字列の平均長さとの関係を示したものである。
図７から閾値が大きいときほど、区切り位置間の文字列の平均長さが長くなり、区切り位置間の文字列の平均長さを、「５」にする場合には「０．６〜０．７」を閾値として用いればよいことがわかる。

そして、このようにしきい値の自動調整を行った結果、適切な文字列の長さとなるように区切り位置が設定された時点で、そのときの区切り位置を挿入した分割対象データを、区切り位置判定結果として表示装置などに表示する（ステップＳ３４）。
このように構成することによって、分割対象データの区切り位置間の文字列の長さが適度な長さになるように自動的に調整することができる。

また、上記実施形態においては、各パターンの区切り確率に基づき、区切り確率の平均値を算出する場合について説明したが、これに限るものではない。例えば、平均値ではなく、区切り確率そのものが最大となる位置を区切り位置と判定するようにしてもよい。
例えば、図３に示すパターンと区切り確率との対応において、区切り確率が最大であるのは、「０．８」であるため、区切り確率が「０．８」である、「ブ」の前側位置、「ド」と「ア」との間、「ガー」の後を区切り位置と判定するようにしてもよい。

＜全体動作＞
次に、分割対象データとしての新曲名を分割する際の全体動作を説明する。
まず、モデルファイル学習装置３において、予めモデルファイルＭＦを作成し、モデルファイル記憶部３４に格納しておく。このとき、モデルファイルＭＦは予め設定した指定ｇｒａｍ数Ｎの文字列からなるキーについて作成する。
ここで、前述のように、文字列分割装置２では、モデルファイルＭＦに登録されている区切り確率に基づき、分割対象データを分割している。そのため、良好なモデルファイルＭＦを用いるほど、分割対象データの分割を適切に行うことができる。

したがって、モデルファイル学習装置３では、より多くの多様な学習文を用いてモデルファイルＭＦを作成することが好ましい。
また、モデルファイルＭＦを、定期的あるいは新曲が出るタイミング等といった予め設定したタイミングで、新曲の名前になりそうな流行語や世情を表す言葉などが含まれた学習文を用いて、更新するようにしてもよい。このように、流行語などを含む学習文を用いてモデルファイルＭＦを作成することによって、区切り位置の検出精度の向上につながる。

このようにしてモデルファイルＭＦを作成したならば、文字列分割装置２により、分割対象データの分割を行う。まず表音文字列からなる分割対象データ（すなわち曲名を表す文字列データ）、分割対象データ入力部２１により入力し、分割対象データから指定ｇｒａｍ数Ｎの文字列からなるパターンを生成する。
そして、パターンを生成する毎に、モデルファイルＭＦに基づき区切り確率を求め、さらに所定の演算対象位置における各パターンに基づく区切り確率の平均値を求める。そして、区切り確率の平均値が閾値を上回る位置を区切り位置と判断し、全てのパターンについて区切り位置の判定が終了したとき、分割対象データの区切り位置の検出結果を表示する。

そして、このようにして分割対象データの区切り位置、すなわち曲名の区切り位置をもとに分割対象データを分割し、分割した文字列をもとに音声認識辞書を作成する。曲名検索システムでは、この音声認識辞書を用いて曲名検索を行う。
例えば、「ホワイトクリスマス」という表音文字列を分割対象データとして、文字列分割装置２を用いて区切り位置を検出することによって、「ホワイト」と「クリスマス」とに分割することができる。

したがって、文字列分割装置２による分割結果を用いて音声認識辞書を作成することによって、曲名「ホワイトクリスマス」が的確な位置で分割された「ホワイト」および「クリスマス」を含む、音声認識辞書が作成されることになる。したがって、このようにして生成された音声認識辞書を用いて曲名検索を行うことによって、「ホワイト」、「クリスマス」といった、曲名「ホワイトクリスマス」の一部だけが発話された場合であっても、曲名「ホワイトクリスマス」を的確に検索することができる。

ここで、文字列分割装置２では、予め生成したモデルファイルＭＦを用いて区切り位置を判定しており、すなわち、指定ｇｒａｍ数Ｎの文字列について統計的に区切りとなる傾向が高い位置を区切り位置と判定するようにしている。したがって、漢字や助詞などが含まれない表音文字列からなる分割対象データ、すなわち、前後の単語間のつながりやつながりのルールなどを考慮して形態素解析による分割位置を判別することができない場合であっても、比較的的確に区切り位置を検出することができる。つまり、統計的に区切りとなる傾向が高い位置を区切り位置と判定しているため、形態素単位で区切り位置と判定することができない可能性があるが、ある程度の精度は確保することができる。

前述のように、前後の単語のつながりなどを考慮して形態素解析を行う一般的な形態素解析方法を用いて、漢字や助詞などを含まない分割対象データ（曲名）を分割した場合、特に、曲名などの場合には、分割対象データの文字列が短いため、漢字や助詞など、また、前後の言葉のつながりなどを考慮しようとしても十分に考慮することは難しく、そのため、所望の分割結果を得ることができない可能性がある。

そのため、文字列分割装置２のように、単に、統計的に区切りとなる傾向が高い位置を区切り位置と判定する方が、形態素ごとに分割するという点では十分な精度を得ることができない可能性があるが、曲名など比較的短い文字列データの分割には好適である。
また、漢字や助詞、また、文全体での単語のつながりなど考慮して形態素解析を行う一般的な方法を用いた場合、比較的精度よく形態素解析を行うことができる反面、例えば一カ所区切り位置を誤ると、文全体に渡って、区切り位置が誤って設定される可能性がある。

しかしながら、本実施形態による文字列分割装置２では、局所的な区切り確率にのみ基づいて区切り位置を設定しているため、分割対象データにおいて一カ所区切り位置を誤ったとしても、この区切り位置の誤りが影響することによって、分割対象データ全体に渡って誤った区切り位置が設定されることを回避することができる。同様の理由で分割対象データに未知語が含まれる場合も、この未知語が含まれることにより誤った区切り位置が設定された場合であっても、この区切り位置の誤りが影響することによって、分割対象データ全体に渡って誤った区切り位置が設定されることを回避することができる。

また、文字列分割装置２では、分割対象データの分割を行う場合には、分割対象データから指定ｇｒａｍ数Ｎの文字列をパターンとして抽出し、このパターンについてモデルファイルＭＦから対応する区切り確率を求め、各パターンの区切り確率に基づき区切り確率の平均値を求め、これと閾値とを比較することで区切り位置を検出する構成とした。そのため、複雑な演算処理を伴うことなく簡易な演算処理で区切り位置を検出することができる。すなわち、比較的簡易なアルゴリズムで実現することができ、前述の、形態素解析用の辞書を用いない従来の形態素解析方法に比較して、大幅な処理時間の短縮また処理負荷軽減を図ることができる。

また、このように比較的簡易なアルゴリズムで実現することができ、また処理時間も比較的短いため、繰り返し処理を行ったとしても、比較的短時間ですむ。そのため、例えば前述のように閾値入力装置を設け、区切り判定結果を参照しつつ、適切な区切り位置となるように閾値を調整しながら区切り位置を探索する場合であっても、短時間で所望の位置で分割された分割対象データを得ることができ、使い勝手を向上させることができる。
また、上述のように比較的簡易なアルゴリズムで区切り位置判定を行うことができ、また、処理時間の短縮、処理負荷の軽減を行うことができるため、文字列分割装置２としてはそれほど性能のよい処理装置を用いる必要はない。したがってその分、コスト削減を図ることができる。

また、モデルファイル学習装置３は、モデルファイルＭＦを作成するためには、学習文として、表音文字列からなる文字列データに区切り記号「／」を挿入した区切り付き文字列データを用意すればよく、漢字表記を行う必要はない。したがって、例えば、新曲名のリストなどが表音文字列からなる文字列データとして生成されている場合などには、この表音文字列からなる文字列データを、漢字を含む文字列データに変換する必要はなく、漢字を含むデータへの変更を行わなくても、的確に区切り位置検出を行うことができる。

また、学習文として、表音文字列からなる文字列データに区切り記号「／」を挿入した区切り付き文字列データを多数用意することは手間がかかることではあるが、文字列分割装置２では、各パターンから得られる区切り確率の平均値に基づき区切り位置判定を行っているため、それほど緻密に正しく区切り位置が設定された区切り付き文字列データである必要はない。すなわち、区切り付き文字列データの区切り位置に誤りがあったとしても、文字列分割装置２では、分割対象データを分割してなるパターンに対応する区切り確率の平均値に基づき、区切り位置を判定しているため、一つの区切り付き文字列データの区切り位置に誤りがあったとしても、この区切り付き文字列データの区切り位置の誤りが、文字列分割装置２での区切り位置判定に与える影響を低減することができる。
また、表音文字列からなる文字列データを、漢字や助詞、前後の単語のつながりを考慮して形態素解析を行う一般的な形態素解析方法を用いて分割した場合、前述のように漢字や助詞などを含む文を分割する場合に比較して、分割位置の精度が低下する。

学習文としての表音文字列からなる文字列データを、一般的な形態素解析方法を用いて区切った場合、誤った箇所に区切り位置が設定される可能性がある。そのため、一般的な形態素解析方法により分割して得た、区切り位置が設定された文字列データを、モデルファイル作成用の区切り付き文字列データとしてそのまま用いることは、区切り位置検出の精度の点で不向きである。しかしながら、一般的な形態素解析方法により分割して得た区切り位置が設定された文字列データを多数用意し、これら多数の文字列データを学習用の区切り付き文字列データとして、モデルファイルＭＦを作成するならば、一般的な形態素解析方法により分割して得た区切り位置が設定された文字列データを、学習用の区切り付き文字列データとして適用した場合であっても、ある程度の精度を確保することができる。

このように、文字列分割装置２では、表音文字列からなる分割対象データであってもある程度的確に分割することができる。特に、曲名などの場合には、カタカナだけ、あるいはひらがなだけ、といった漢字や助詞などが含まれない表音文字列からなることが多い。そのため、一般的な形態素解析方法を用いた場合には、適切に分割することができない可能性があるが、表音文字列を分割対象データとする文字列分割装置２を用いることによって比較的的確に分割することができる。

したがって、表音文字列からなる曲名であっても、人手によらず、比較的的確に分割することができ、使い勝手のよい曲名検索システムを実現し得る音声認識辞書を容易に得ることができる。
また、前述のように、使い勝手のよい曲名検索システムを実現するためには、新曲が出るとき等のタイミングで、新曲名を形態素に分割した「ホワイト」、「クリスマス」などといった単語を、音声認識辞書に登録する必要がある。

ここで、例えば漢字の「口」という文字を、カタカナの「ロ」にみたてて「ろ」と読むなど、文字列を本来の読み方とは異なる特殊な読み方で読む文字列を含む文字列データの場合には、一般的な形態素解析方法を用いて形態素への分割を図ったとしても、特殊な読み方の文字列を未知語として認識し、的確に形態素に分割することができない可能性がある。つまり、特殊な読みの文字列を音声認識辞書に登録することができないため、特殊な読みの文字列を、的確に分割することができた形態素とは別に、別途音声認識辞書に登録するなどの操作を行う必要がある。特に、大量の新曲名を音声認識辞書に登録する場合において、このような特殊な読みの文字列が多数含まれる場合には、多数の特殊な読みの文字列を別途音声認識辞書に登録することになり、手間がかかる。

しかしながら、上記実施形態では、表音文字列からなる文字列データを用いて作成したモデルファイルＭＦを用いて、表音文字列からなる分割対象データを分割するため、特殊な読みの文字列を含む分割対象データであっても、適切に形態素に分割することができる。つまり、特殊な読み方をする文字列であっても意味のある文字列として分割することができ、適切に分割できた他の形態素と同様に取り扱うことができる。したがって、特殊な読みの文字列を音声認識辞書に別途登録する手間を省くことができる。したがって、大量の新曲名に、特殊な読みの文字列が多数含まれる場合であっても、新曲名を形態素に的確に分割することができ、音声認識辞書への登録を容易に行うことができる。
なお、上記分割対象データ、また、区切り付き文字列データは、ひらがな、カタカナからなる場合すなわち日本語に限るものではなく、英語などのローマ字や中国語などの漢字を用いた言語、また、その他の言語であっても適用することができる。

また、上記実施形態において、文字列分割装置２と、モデルファイル学習装置３とは、同じ場所に設ける必要はない。例えば、文字列分割装置２とモデルファイル学習装置３とを通信回線などで接続し、モデルファイル学習装置３のモデルファイル記憶部３４に記憶されたモデルファイルＭＦを、通信回線を介して文字列分割装置２で取得するように構成してもよい。同様に、モデルファイル記憶部３４は、区切り付き文字列データ入力部３１、区切り情報抽出部３２およびモデルファイル作成部３３と同じ場所に設ける必要はなく、要はモデルファイル作成部３３で作成したモデルファイルＭＦをモデルファイル記憶部３４に格納することができ、且つ、モデルファイル記憶部３４に格納されたモデルファイルＭＦを、モデルファイル読み込み部２２が取得することができれば、各部がどこに配置されていてもよい。

上記実施形態において、図５のステップＳ２３の処理がパターン抽出部に対応し、ステップＳ２４の処理が検出部に対応し、ステップＳ２６の処理が平均値演算部に対応している。
また、図２のステップＳ１６の処理が区切り確率演算部および平均値演算部に対応している。

１文字列分割システム
２文字列分割装置
３モデルファイル学習装置
２１分割対象データ入力部
２２モデルファイル読み込み部
２３区切り確率検出部
２４区切り判定部
２５表示装置
３１区切り付き文字列データ入力部
３２区切り情報抽出部
３３モデルファイル作成部
３４モデルファイル記憶部

Claims

設定された文字数の文字列からなるキーと当該文字列の文字間が区切りとなる確率を表す区切り確率とが対応付けられたものが複数格納されてなるモデルファイルを読み込むモデルファイル読み込み部と、
表音文字列からなる分割対象データを入力する分割対象データ入力部と、
前記モデルファイル読み込み部で読み込んだモデルファイルをもとに、前記分割対象データ入力部で入力した前記分割対象データを構成する文字列における文字間の区切り確率を検出する区切り確率検出部と、
当該区切り確率検出部で検出した前記分割対象データを構成する文字列における文字間の区切り確率に基づき、前記分割対象データを構成する文字列の区切り位置を判定する区切り判定部と、を備えることを特徴とする文字列分割装置。
前記区切り判定部は、前記分割対象データを構成する文字列における文字間の区切り確率が予め設定した閾値以上である位置を前記区切り位置と判定し、
前記閾値は変更可能に構成されていることを特徴とする請求項１記載の文字列分割装置。
前記区切り判定部は、前記分割対象データの、前記区切り判定部で判定された区切り位置間の文字列の長さを検出し、当該文字列の長さに応じて前記閾値を変更して前記区切り位置を再判定することを特徴とする請求項２記載の文字列分割装置。
前記区切り確率検出部は、
前記分割対象データを構成する文字列の端から順に１文字ずつずらしながら予め設定した数の文字列をパターンとして抽出するパターン抽出部と、
当該パターンそれぞれについて前記モデルファイルをもとに前記区切り確率を検出する検出部と、
前記分割対象データを構成する文字列のうちの同一の文字間を文字列に含むパターンそれぞれについて検出された前記区切り確率に基づき、前記同一の文字間位置における前記区切り確率の平均値を演算する平均値演算部と、を備え、
前記区切り判定部は、当該平均値演算部で演算された区切り確率の平均値に基づき、前記区切り位置を判定することを特徴とする請求項１から請求項３のいずれか１項に記載の文字列分割装置。
表音文字列からなる文字列データに対して当該文字列データの文字列の区切り位置を表す区切り位置情報が付加されてなる区切り付き文字列データを入力する区切り付き文字列データ入力部と、
当該区切り付き文字列データ入力部で入力された区切り付き文字列データから、前記区切り位置情報を抽出する区切り情報抽出部と、
前記区切り付き文字列データから指定された文字数の文字列をパターンとして抽出し、当該パターンを構成する文字列の文字間、前記パターンを構成する文字列の先頭文字の前側位置および終端文字の後側位置における区切り確率を、前記区切り情報抽出部で抽出した前記区切り位置情報に基づき検出し、前記パターンと当該パターンを構成する文字列の各位置における区切り確率とを対応付けてモデルファイルを作成するモデルファイル作成部と、を備えることを特徴とするモデルファイル学習装置。
前記モデルファイル作成部は、
前記区切り付き文字列データから指定された文字数の文字列をパターンとして抽出し、当該パターンを構成する文字列の文字間、前記パターンを構成する文字列の先頭文字の前側位置および終端文字の後側位置における区切り確率を、前記区切り情報抽出部で抽出した前記区切り位置情報に基づき検出する区切り確率演算部と、
異なる前記区切り付き文字列パターンから抽出された共通の文字列からなる複数のパターンについて、当該パターンについて検出された前記区切り確率に基づき、前記共通の文字列の文字間、前記共通の文字列の先頭文字の前側位置および終端文字の後側位置それぞれの各位置における区切り確率の平均値を演算する平均値演算部と、を備え、
複数のパターンに共通の文字列については、前記平均値演算部で演算された前記各位置における区切り確率の平均値と前記共通の文字列とを対応付けて、前記モデルファイルを作成することを特徴とする請求項５記載のモデルファイル学習装置。
前記請求項１から請求項４のいずれか１項に記載の文字列分割装置と、
前記請求項５または請求項６に記載のモデルファイル学習装置と、を備え、
前記文字列分割装置は、前記モデルファイル学習装置で作成したモデルファイルを用いて前記分割対象データの文字列における文字間の区切り確率を検出することを特徴とする文字列分割システム。