JP7197542B2

JP7197542B2 - テキストワードセグメンテーションの方法、装置、デバイスおよび媒体

Info

Publication number: JP7197542B2
Application number: JP2020159812A
Authority: JP
Inventors: ドンミンマ; ベンシュ; シュウジェンリ
Original assignee: バイドゥオンラインネットワークテクノロジー（ペキン）カンパニーリミテッド; シャンハイシャオドゥテクノロジーカンパニーリミテッド
Priority date: 2020-01-14
Filing date: 2020-09-24
Publication date: 2022-12-27
Anticipated expiration: 2040-09-24
Also published as: CN111274353B; CN111274353A; JP2021111342A; US20210216710A1; US11468236B2

Description

本願の実施例は、データ処理技術分野に関し、特にスマート検索技術に関する。具体的には、本願の実施例は、テキストワードセグメンテーションの方法、装置、デバイスおよび媒体を提供する。

自然言語では、ワードセグメンテーションは重要な基礎タスクである。ワードセグメンテーションの精度は後続の他のタスクに直接影響し、例えば分類、シークエンスアノテーション、検索、ソート等である。

既存のワードセグメンテーション解決手段は主にワードリストをマッチングすることにより、マッチング結果に基づいて語句の分割を行うことである。

しかしながら、上記解決手段は分割対象となるテキストに単語粒度の分割を行うことしかできない。

本願の実施例は、テキストの異なる単語粒度を分割するように、テキストワードセグメンテーションの方法、装置、デバイスおよび媒体を提供する。

本願の実施例は、テキストワードセグメンテーションの方法を提供し、前記方法は、分割対象となるテキストを少なくとも２層の文字セグメントの組み合わせに区分するステップと、前記少なくとも２層の文字セグメントの組み合わせに基づいて、ターゲット単語粒度に従って、前記分割対象となるテキストを分割するステップとを含み、ただし、いずれかの層の文字セグメントは上位層の文字セグメントのサブ文字セグメント、および／または下位層の文字セグメントの親文字セグメントである。

本願の実施例は、分割対象となるテキストを少なくとも２層の文字セグメントの組み合わせに区分し、前記少なくとも２層の文字セグメントの組み合わせに基づいて、ターゲット単語粒度に従って、前記分割対象となるテキストを分割する。各層の文字セグメントの組み合わせにおける文字セグメントの長さが異なるので、本願の実施例は、区分された少なくとも２層の文字セグメントの組み合わせに基づいて分割対象となるテキストの異なる単語粒度の分割を実現することができる。

さらには、前記分割対象となるテキストを少なくとも２層の文字セグメントの組み合わせに区分するステップは、上位層の文字セグメントの組み合わせに属する上位層の文字セグメントから、少なくとも１種の長さの候補文字セグメントを抽出することと、抽出された候補文字セグメントを組み合わせ、候補文字セグメントの組み合わせを取得することと、前記候補文字セグメント間の重複関係および前記候補文字セグメントの履歴使用情報に従って、前記候補文字セグメントの組み合わせから、少なくとも１つの現在層文字セグメントを含む現在層文字セグメントの組み合わせを決定することと、を含む。

該技術的特徴に基づいて、本願の実施例は、少なくとも１種の長さの候補文字セグメントを抽出し、抽出された候補文字セグメントを組み合わせ、前記候補文字セグメント間の重複関係および前記候補文字セグメントの履歴使用情報に従って、候補文字セグメントの組み合わせから現在層文字セグメントの組み合わせを決定することで、分割対象となるテキストの各層の文字セグメントの組み合わせの区分を実現する。

また、本願の実施例は、前記候補文字セグメント間の重複関係および前記候補文字セグメントの履歴使用情報に従って、各層の文字セグメントの組み合わせを決定し、該プロセスがワードリストに依存しないので、本願の実施例は、各層の文字セグメントの組み合わせに基づいて、ワードリストに記録されていない語句の分割を実現することができる。

さらには、前記の前記候補文字セグメント間の重複関係および前記候補文字セグメントの履歴使用情報に従って、前記候補文字セグメントの組み合わせから現在層文字セグメントの組み合わせを決定することは、前記候補文字セグメントの組み合わせから重複がある候補文字セグメントの組み合わせをフィルタリングし、ターゲット文字セグメントの組み合わせを取得することと、前記ターゲット文字セグメントの組み合わせに含まれた前記候補文字セグメントの数と前記候補文字セグメントの履歴使用情報に従って、前記ターゲット文字セグメントの組み合わせから前記現在層文字セグメントの組み合わせを決定することと、を含む。

該技術的特徴に基づいて、本願の実施例は、前記候補文字セグメントの組み合わせから重複がある候補文字セグメントの組み合わせをフィルタリングし、ターゲット文字セグメントの組み合わせを取得し、前記ターゲット文字セグメントの組み合わせに含まれた前記候補文字セグメントの数と前記候補文字セグメントの履歴使用情報に従って、前記ターゲット文字セグメントの組み合わせから前記現在層文字セグメントの組み合わせを決定することで、前記候補文字セグメント間の重複関係および前記候補文字セグメントの履歴使用情報に従って、現在層文字セグメントの組み合わせの決定を実現する。

さらには、前記の前記ターゲット文字セグメントの組み合わせに含まれた前記候補文字セグメントの数と前記候補文字セグメントの履歴使用情報に従って、前記ターゲット文字セグメントの組み合わせから前記現在層文字セグメントの組み合わせを決定することは、前記候補文字セグメントの履歴隣接文字情報に従って、前記候補文字セグメントの情報エントロピーを計算することと、計算された情報エントロピーに従って前記ターゲット文字セグメントの組み合わせの重みを決定することと、前記ターゲット文字セグメントの組み合わせに含まれた前記候補文字セグメントの数と前記ターゲット文字セグメントの組み合わせの重みに従って、前記ターゲット文字セグメントの組み合わせから前記現在層文字セグメントの組み合わせを決定することと、を含む。

該技術的特徴に基づいて、本願の実施例は、前記候補文字セグメントの履歴隣接文字情報に従って、前記候補文字セグメントの情報エントロピーを計算し、計算された情報エントロピーに従って前記ターゲット文字セグメントの組み合わせの重みを決定し、前記ターゲット文字セグメントの組み合わせに含まれた前記候補文字セグメントの数と前記ターゲット文字セグメントの組み合わせの重みに従って、前記ターゲット文字セグメントの組み合わせから前記現在層文字セグメントの組み合わせを決定することで、前記ターゲット文字セグメントの組み合わせに含まれた前記候補文字セグメントの数と前記候補文字セグメントの履歴使用情報に従って、現在層文字セグメントの組み合わせの決定を実現する。

また、前記候補文字セグメントの履歴隣接文字情報に従って、前記候補文字セグメントの情報エントロピーを計算し、計算された情報エントロピーに従って前記ターゲット文字セグメントの組み合わせの重みを決定し、計算された重みにターゲット文字セグメントの組み合わせにおける凝集度情報が含まれることで、語句の境界を決定する精度が向上し、さらにテキストワードセグメンテーションの精度が向上する。

さらには、前記の前記少なくとも２層の文字セグメントの組み合わせに基づいて、ターゲット単語粒度に従って、前記分割対象となるテキストを分割するステップは、文字セグメントの組み合わせにおける文字セグメントの履歴使用情報と異なる文字セグメントの組み合わせにおける文字セグメント間の親子関係に従って、前記文字セグメントの組み合わせの文字セグメントからターゲット分割セグメントを決定することと、前記ターゲット分割セグメントを組み合わせ、前記ターゲット分割セグメントの組み合わせに基づいて、ターゲット単語粒度に従って、前記分割対象となるテキストを分割することと、を含む。

該技術的特徴に基づいて、本願の実施例は、文字セグメントの組み合わせにおける文字セグメントの履歴使用情報と異なる文字セグメントの組み合わせにおける文字セグメント間の親子関係に従って、前記文字セグメントの組み合わせの文字セグメントからターゲット分割セグメントを決定することで、最適な分割単語粒度の決定を実現する。さらに最適な分割単語粒度に基づいて、分割対象となるテキストの正確な分割を実現できる。

さらには、前記文字セグメントの組み合わせにおける文字セグメントの履歴使用情報と異なる文字セグメントの組み合わせにおける文字セグメント間の親子関係に従って、前記文字セグメントの組み合わせの文字セグメントからターゲット分割セグメントを決定することは、前記文字セグメントの組み合わせにおける親文字セグメントの履歴使用情報に従って、前記親文字セグメントの重みを決定することと、前記親文字セグメントに関連付けられたサブ文字セグメントの履歴使用情報に従って、前記サブ文字セグメントの総合重みを決定することと、前記親文字セグメントの重みを前記サブ文字セグメントの総合重みと比較し、前記親文字セグメントの重みが前記サブ文字セグメントの総合重みよりも大きい場合、前記親文字セグメントが属するブランチのトラバースを終了し、前記親文字セグメントに関連付けられたサブ文字セグメントをターゲット分割セグメントとすることと、を含む。

該技術的特徴に基づいて、本願の実施例は、前記親文字セグメントの重みを前記サブ文字セグメントの総合重みと比較し、前記親文字セグメントの重みが前記サブ文字セグメントの総合重みよりも大きい場合、前記親文字セグメントが属するブランチのトラバースを終了し、前記親文字セグメントに関連付けられたサブ文字セグメントをターゲット分割セグメントとすることで、最適な分割単語粒度の決定を実現する。

さらには、前記の前記分割対象となるテキストを分割した後、前記方法は、分割によって取得されたターゲット分割語句を、既存のワードセグメンテーションロジックに基づいて前記分割対象となるテキストを分割することによって取得された既存の分割語句と比較することと、比較結果に従って、前記ターゲット分割語句からマイニング対象となる語句を決定することと、をさらに含む。

該技術的特徴に基づいて、本願の実施例は、分割によって取得されたターゲット分割語句を既存の分割語句と比較し、比較結果に従って、前記ターゲット分割語句からマイニング対象となる語句を決定することで、新たな語句のマイニングを実現する。

さらには、本願の実施例は、テキストワードセグメンテーション装置を提供しており、該装置は、分割対象となるテキストを少なくとも２層の文字セグメントの組み合わせに区分するためのテキスト区分モジュールと、前記少なくとも２層の文字セグメントの組み合わせに基づいて、ターゲット単語粒度に従って、前記分割対象となるテキストを分割するためのテキスト分割モジュールと、を含み、ただし、いずれかの層の文字セグメントは上位層の文字セグメントのサブ文字セグメントおよび／または下位層の文字セグメントの親文字セグメントである。

さらには、前記テキスト分割モジュールは、上位層の文字セグメントの組み合わせに属する上位層の文字セグメントから少なくとも１種の長さの候補文字セグメントを抽出するためのセグメント抽出ユニットと、抽出された候補文字セグメントを組み合わせ、候補文字セグメントの組み合わせを取得するためのセグメント組み合わせユニットと、前記候補文字セグメント間の重複関係および前記候補文字セグメントの履歴使用情報に従って、前記候補文字セグメントの組み合わせから、少なくとも１つの現在層文字セグメントを含む現在層文字セグメントの組み合わせを決定するための組み合わせ決定ユニットと、を含む。

さらには、前記組み合わせ決定ユニットは、前記候補文字セグメントの組み合わせから重複がある候補文字セグメントの組み合わせをフィルタリングし、ターゲット文字セグメントの組み合わせを取得するための組み合わせフィルタリングサブユニットと、前記ターゲット文字セグメントの組み合わせに含まれた前記候補文字セグメントの数と前記候補文字セグメントの履歴使用情報に従って、前記ターゲット文字セグメントの組み合わせから前記現在層文字セグメントの組み合わせを決定するための組み合わせ決定サブユニットと、を含む。

さらには、前記組み合わせ決定サブユニットは、具体的には、前記候補文字セグメントの履歴隣接文字情報に従って、前記候補文字セグメントの情報エントロピーを計算することと、計算された情報エントロピーに従って前記ターゲット文字セグメントの組み合わせの重みを決定することと、前記ターゲット文字セグメントの組み合わせに含まれた前記候補文字セグメントの数と前記ターゲット文字セグメントの組み合わせの重みに従って、前記ターゲット文字セグメントの組み合わせから前記現在層文字セグメントの組み合わせを決定することと、に用いられる。

さらには、前記テキスト分割モジュールは、文字セグメントの組み合わせにおける文字セグメントの履歴使用情報と異なる文字セグメントの組み合わせにおける文字セグメント間の親子関係に従って、前記文字セグメントの組み合わせの文字セグメントからターゲット分割セグメントを決定するための分割セグメント決定ユニットと、前記ターゲット分割セグメントを組み合わせ、前記ターゲット分割セグメントの組み合わせに基づいて、ターゲット単語粒度に従って、前記分割対象となるテキストを分割するためのテキスト分割ユニットと、を含む。

さらには、前記分割セグメント決定ユニットは、前記文字セグメントの組み合わせにおける親文字セグメントの履歴使用情報に従って、前記親文字セグメントの重みを決定するための第１の重みサブユニットと、前記親文字セグメントに関連付けられたサブ文字セグメントの履歴使用情報に従って、前記サブ文字セグメントの総合重みを決定するための第２の重みサブユニットと、前記親文字セグメントの重みを前記サブ文字セグメントの総合重みと比較し、前記親文字セグメントの重みが前記サブ文字セグメントの総合重みよりも大きい場合、前記親文字セグメントが属するブランチのトラバースを終了し、前記親文字セグメントに関連付けられたサブ文字セグメントをターゲット分割セグメントとするための分割セグメント決定サブユニットと、を含む。

さらには、前記装置は、前記の前記分割対象となるテキストを分割した後、分割によって取得されたターゲット分割語句を、既存のワードセグメンテーションロジックに基づいて前記分割対象となるテキストを分割することによって取得された既存の分割語句と比較するための語句比較モジュールと、比較結果に従って、前記ターゲット分割語句からマイニング対象となる語句を決定するための語句マイニングモジュールと、をさらに含む。

本発明の実施例は電子デバイスをさらに提供しており、前記デバイスは、少なくとも１つのプロセッサと、前記少なくとも１つのプロセッサと通信可能に接続されたメモリと、を備え、前記メモリは、前記少なくとも１つのプロセッサによって実行可能な命令を記憶し、前記少なくとも１つのプロセッサが本願の実施例のいずれか１項に記載の方法を実行できるように、前記命令が前記少なくとも１つのプロセッサに実行される。

本発明の実施例は、コンピューター命令を記憶する非一時的なコンピューター読み取り可能な記憶媒体をさらに提供しており、前記コンピューター命令は、前記コンピューターに本願の実施例のいずれか１項に記載の方法を実行させる。

本発明の実施例はコンピュータープログラムをさらに提供しており、前記コンピュータープログラムがプロセッサによって実行されるとき、前記コンピューターに本願実施例のいずれか１項に記載の方法を実行させる。

図面は、技術的解決手段をよりよく理解するために用いられており、本願を限定するものではない。
本願の第１の実施例に係るテキストワードセグメンテーションの方法のフローチャートである。本願の第１の実施例に係る分割対象となるテキストのレイヤーを区分する概略図である。本願の第２の実施例に係るテキストワードセグメンテーションの方法のフローチャートである。本願の第３の実施例に係るテキストワードセグメンテーションの方法のフローチャートである。本願の第４の実施例に係る新たな語句マイニング方法のフローチャートである。本願の第５の実施例に係るテキストワードセグメンテーション装置の構造概略図である。本願の実施例に係るテキストワードセグメンテーションの方法の電子デバイスブロック図である。

以下、理解を容易にするために、図面を参照しながら本願の様々な詳細を含む例示的な実施例を説明するが、それらは例示的なものだけだと見られるべきである。したがって、当業者は、本願の範囲及び精神から逸脱することなく、ここでは記載された実施例に様々な変更及び修正できると認識するべきである。同様に、簡潔明瞭のために、以下の説明では、公知の機能及び構造の説明を省略する。
第１の実施例

図１は本願第１の実施例に係るテキストワードセグメンテーションの方法のフローチャートである。本実施例はテキストにワードセグメンテーションを行う場合に適用できる。典型的には、本願の実施例は、検索対象となるテキストにワードセグメンテーションを行う場合に適用できる。該方法はテキストワードセグメンテーション装置によって実行され、該装置はソフトウェアおよび／またはハードウェアの態様で実現される。図１を参照すると、本願の実施例に係るテキストワードセグメンテーションの方法は、以下のステップを含み、

Ｓ１１０、分割対象となるテキストを少なくとも２層の文字セグメントの組み合わせに区分し、ただし、いずれかの層の文字セグメントは上位層の文字セグメントのサブ文字セグメント、および／または下位層の文字セグメントの親文字セグメントである。

文字セグメントの組み合わせは少なくとも１つの文字セグメントを含み、各文字セグメントは、分割対象となるテキストにおける１つの文字または少なくとも２つの隣接文字によって決定される。

各文字セグメントは１種の長さの語句を示す。

各層の文字セグメントの組み合わせにおける少なくとも２つの文字セグメントをスプライスし、分割対象となるテキストを取得することができ、且つ、スプライスされた２つの文字セグメント間に重複がない。

具体的には、ワードリストにおける異なる粒度の語句に従って、分割対象となるテキストに少なくとも２層の文字セグメントの組み合わせの分割を行うようにしてもよい。

例示的には、図２を参照すると、分割対象となるテキストは、「恐▲竜▼机器人大恐▲竜▼机器人（恐竜ロボット、大きい恐竜ロボット）」である場合、区分された少なくとも２層の文字セグメントの組み合わせは、（「恐▲竜▼机器人（恐竜ロボット）」、「大恐▲竜▼机器人（大きい恐竜ロボット）」）、（「恐▲竜▼（恐竜）」、「机器人（ロボット）」、「大恐▲竜▼（大きい恐竜）」、「机器人」）、（「恐（恐）」、「▲竜▼（竜）」、「机器（機械）」、）「人（人）」、「大（大きい）」、「恐▲竜▼」、「机器」、「人」）、（「恐」、「▲竜▼」、「机」、「器」、「人」、「大」、「恐」、「▲竜▼」、「机」、「器」、「人」）である。

Ｓ１２０、前記少なくとも２層の文字セグメントの組み合わせに基づいて、ターゲット単語粒度に従って、前記分割対象となるテキストを分割する。

ただし、ターゲット単語粒度は分割対象となる単語粒度を指す。

具体的には、前記少なくとも２層の文字セグメントの組み合わせに基づいてターゲット単語粒度に従って前記分割対象となるテキストを分割するステップは、
ターゲット単語粒度に従って、前記少なくとも２層の文字セグメントの組み合わせから一組み合わせを決定し、該組み合わせにおける各文字セグメントに従って、前記分割対象となるテキストを分割することを含む。

新たな語句のマイニングを実現するために、前記の前記分割対象となるテキストを分割した後、前記方法は、分割によって取得されたターゲット分割語句を、既存のワードセグメンテーションロジックに基づいて前記分割対象となるテキストを分割することによって取得された既存の分割語句と比較することと、比較結果に従って、前記ターゲット分割語句からマイニング対象となる語句を決定することと、をさらに含む。
第２の実施例

図３は本願第２の実施例に係るテキストワードセグメンテーションの方法のフローチャートである。本実施例は上記の実施例に基づいて提供される選択可能な解決手段である。図３を参照すると、本願の実施例に係るテキストワードセグメンテーションの方法は、以下のステップを含み、

Ｓ２１０、上位層の文字セグメントから少なくとも１種の長さの候補文字セグメントを抽出し、ただし、前記上位層の文字セグメント上位層の文字セグメントの組み合わせに属する。

具体的には、上分割対象となるテキストを区分することによって位層の文字セグメントを決定できる。

具体的には、ｎ-ｇｒａｍアルゴリズムｄｅで少なくとも１種の長さの候補文字セグメントの抽出を実現できる。

Ｓ２２０、抽出された候補文字セグメントを組み合わせ、候補文字セグメントの組み合わせを取得する。

具体的には、候補文字セグメントの組み合わせを取得するように、分割対象となるテキストにおける語句間の連接関係に従って、抽出された候補文字セグメントを組み合わせる。

Ｓ２３０、分割対象となるテキストを少なくとも２層の文字セグメントの組み合わせに区分することを実現するように、前記候補文字セグメント間の重複関係および前記候補文字セグメントの履歴使用情報に従って、前記候補文字セグメントの組み合わせから、少なくとも１つの現在層文字セグメントを含む現在層文字セグメントの組み合わせを決定する。

具体的には、前記候補文字セグメント間の重複関係は、候補文字セグメント間に重複があることおよび候補文字セグメント間に重複がないことを含む。

履歴使用情報は、単一文としての出現の頻度と隣接文字情報としての出現の合計頻度を含む。

隣接文字情報は隣接の文字および隣接文字の出現情報を含む。

具体的には、前記の前記候補文字セグメント間の重複関係および前記候補文字セグメントの履歴使用情報に従って、前記候補文字セグメントの組み合わせから現在層文字セグメントの組み合わせを決定することは、前記候補文字セグメントの組み合わせから重複がある候補文字セグメントの組み合わせをフィルタリングし、ターゲット文字セグメントの組み合わせを取得することと、前記ターゲット文字セグメントの組み合わせに含まれた前記候補文字セグメントの数と前記候補文字セグメントの履歴使用情報に従って、前記ターゲット文字セグメントの組み合わせから前記現在層文字セグメントの組み合わせを決定することと、を含む。

例示的には、分割対象となるテキストは次のとおりであり、私は張さんの漫才を聞くのが好きである。候補文字セグメントは、私、私が好き、聞くのが好き、張さんを聞く、張を聞く、張さんの、三の、漫才、相と声を含むがこれらに限定されない。候補文字セグメントの組み合わせは、（私、聞くのが好き、張さんの、漫才）、（私が好き、聞くのが好き、張さんの、漫才）、（私、張さんを聞く、漫才）、（私が好き、張を聞く、張さんの、漫才）を含んでもよい。（私が好き、聞くのが好き、張さんの、漫才）に「好き」が重複であり、（私が好き、張を聞く、張さんの、漫才）に「張」が重複であるため、（私が好き、聞くのが好き、張さんの、漫才）と（私が好き、張を聞く、張さんの、漫才）を候補文字セグメントの組み合わせからフィルタリングし削除する。

具体的には、前記の前記ターゲット文字セグメントの組み合わせに含まれた前記候補文字セグメントの数と前記候補文字セグメントの履歴使用情報に従って、前記ターゲット文字セグメントの組み合わせから前記現在層文字セグメントの組み合わせを決定することは、前記候補文字セグメントの履歴隣接文字情報に従って、前記候補文字セグメントの情報エントロピーを計算することと、計算された情報エントロピーに従って前記ターゲット文字セグメントの組み合わせの重みを決定することと、前記ターゲット文字セグメントの組み合わせに含まれた前記候補文字セグメントの数と前記ターゲット文字セグメントの組み合わせの重みに従って、前記ターゲット文字セグメントの組み合わせから前記現在層文字セグメントの組み合わせを決定することと、を含む。

具体的には、前記ターゲット文字セグメントの組み合わせに含まれた前記候補文字セグメントの数と前記ターゲット文字セグメントの組み合わせの重みに従って、前記ターゲット文字セグメントの組み合わせから前記現在層文字セグメントの組み合わせを決定することは、前記ターゲット文字セグメントの組み合わせにおける、重みが最も高くて文字セグメントを含む数が最も少ないターゲット文字セグメントの組み合わせを、現在層文字セグメントの組み合わせとすることを含む。

Ｓ２４０、前記少なくとも２層の文字セグメントの組み合わせに基づいて、ターゲット単語粒度に従って、前記分割対象となるテキストを分割する。

本願の実施例は、少なくとも１種の長さの候補文字セグメントを抽出し、抽出された候補文字セグメントを組み合わせ、前記候補文字セグメント間の重複関係および前記候補文字セグメントの履歴使用情報に従って、候補文字セグメントの組み合わせから現在層文字セグメントの組み合わせを決定することで、分割対象となるテキストの各層の文字セグメントの組み合わせの区分を実現する。

また、本願の実施例は、前記候補文字セグメント間の重複関係および前記候補文字セグメントの履歴使用情報に従って、各層の文字セグメントの組み合わせを決定し、該プロセスワードリストに依存しないので、本願の実施例は、各層の文字セグメントの組み合わせに基づいて、ワードリストに記録されていない語句の分割を実現することができる。
第３の実施例

図４は本願の第３の実施例に係るテキストワードセグメンテーションの方法のフローチャートである。本実施例は上記の実施例に基づいて提供される選択可能な解決手段である。図４を参照すると、本願の実施例に係るテキストワードセグメンテーションの方法は、以下のステップを含み、

Ｓ３１０、分割対象となるテキストを少なくとも２層の文字セグメントの組み合わせに区分し、ただし、いずれかの層の文字セグメントは上位層の文字セグメントのサブ文字セグメントおよび／または下位層の文字セグメントの親文字セグメントである。

Ｓ３２０、文字セグメントの組み合わせにおける文字セグメントの履歴使用情報と異なる文字セグメントの組み合わせにおける文字セグメント間の親子関係に従って、前記文字セグメントの組み合わせの文字セグメントからターゲット分割セグメントを決定する。

ただし、ターゲット分割セグメントは分割の根拠としての文字セグメントを指す。

具体的には、前記文字セグメントの組み合わせにおける文字セグメントの履歴使用情報と異なる文字セグメントの組み合わせにおける文字セグメント間の親子関係に従って、前記文字セグメントの組み合わせの文字セグメントからターゲット分割セグメントを決定することは、前記文字セグメントの組み合わせにおける親文字セグメントの履歴使用情報に従って、前記親文字セグメントの重みを決定することと、前記親文字セグメントに関連付けられたサブ文字セグメントの履歴使用情報に従って、前記サブ文字セグメントの総合重みを決定することと、前記親文字セグメントの重みを前記サブ文字セグメントの総合重みと比較し、前記親文字セグメントの重みが前記サブ文字セグメントの総合重みよりも大きい場合、前記親文字セグメントが属するブランチのトラバースを終了し、前記親文字セグメントに関連付けられたサブ文字セグメントをターゲット分割セグメントとすることと、を含む。

ただし、親文字セグメントの重みは、親文字セグメントが単独に１つの語句とする可能性を示す。

サブ文字セグメントの総合重みは、サブ文字セグメントが単独に１つの語句とする可能性を示す。

具体的には、前記文字セグメントの組み合わせにおける親文字セグメントの履歴使用情報に従って、前記親文字セグメントの重みを決定することは、親文字セグメント履歴が単独にセンテンスとする出現の頻度に従って、親文字セグメントの重みを決定することと、前記親文字セグメントに関連付けられたサブ文字セグメントの履歴使用情報に従って、前記サブ文字セグメントの総合重みを決定することと、親文字セグメントに関連付けられたサブ文字セグメント履歴が単独にセンテンスとする出現の頻度に従って、サブ文字セグメントの総合重みを決定することと、を含む。

任意的には、サブ文字セグメントの履歴出現頻度および／履歴隣接文字情報に従って、サブ文字セグメントの総合重みをさらに決定してもよい。本実施例はこれにいかなる限定をしない。

Ｓ３３０、前記ターゲット分割セグメントを組み合わせ、前記ターゲット分割セグメントの組み合わせに基づいて、ターゲット単語粒度に従って、前記分割対象となるテキストを分割する。

本願の実施例の技術的な解決手段は、文字セグメントの組み合わせにおける文字セグメントの履歴使用情報と異なる文字セグメントの組み合わせにおける文字セグメント間の親子関係に従って、前記文字セグメントの組み合わせの文字セグメントからターゲット分割セグメントを決定することで、最適な分割単語粒度の決定を実現し、さらに最適な分割単語粒度に基づいて、分割対象となるテキストの正確な分割を実現できる。
第４の実施例

図５は本願第４の実施例に係る新たな語句マイニング方法のフローチャートである。本実施例は、上記の実施例に基づいて、テキストワードセグメンテーションの方法を新たな語句マイニングシナリオに適用することにより提出される選択可能な適用解決手段である。図５を参照すると、本願の実施例に係る新たな語句マイニング方法は、以下を含み、基本コーパス準備段階、履歴期間のユーザー検索テキストを収集し、コーパススを作成し、且つコーパスにおけるユーザー検索テキストの使用頻度を統計する。コーパスにおける各ユーザー検索テキストに少なくとも１種の長さの文字セグメントを抽出し、ただし、抽出した最大長さは、語句の最大長さにより決定される。文字セグメントのコーパスにおける出現頻度、文字セグメントが１つのセンテンスとしての出現頻度、文字セグメントの隣接文字および隣接文字の出現頻度を統計する。

コーパスにおける各ユーザー検索テキストを統計した後、〈ｎｇｒａｍ，ｎｇｒａｍｐｖ，ｑｕｅｒｙｐｖ，ｌｅｆｔｗｏｒｄｓｓｔａｔｄｉｃｔ，ｒｉｇｈｔｗｏｒｄｓｓｔａｔｄｉｃｔ〉のような情報を取得することができ、Ｎｇｒａｍは文字セグメントを指す。Ｎｇｒａｍｐｖは、文字セグメントが局所セグメントとしての出現の頻度、即ち文字セグメントのコーパスにおける出現合計頻度を指す。Ｑｕｅｒｙｐｖは、文字セグメントが１つのユーザー検索テキストとしての出現の頻度を指し、その文字セグメントの独立した検索能力を表し、文字セグメントがユーザー検索テキストとしての出現の頻度が高いほど文字セグメントの凝集度がより高い。ｌｅｆｔｗｏｒｄｓｓｔａｔｄｉｃｔは、ｍａｐの１つのタイプであり、ただし、ｋｅｙは文字セグメントの隣接前文文字であり、ｖａｌｕｅは該文字が文字セグメントとしての出現頻度である。ｒｉｇｈｔｗｏｒｄｓｓｔａｔｄｉｃｔもｍａｐの１つのタイプであり、ただし、ｍａｐは文字セグメントの隣接後文文字であり、ｖａｌｕｅは該文字が文字セグメントとしての出現頻度である。

具体的には、次の式に従って文字セグメントの左エントロピーまたは右エントロピーを決定し、

求めるのが文字セグメントの左エントロピーである場合、Ｃは文字セグメントの隣接前文文字セットであり、ｃはＣにおけるエレメントであり、

は、文字セグメントが与えられた時に隣接前文ｃの出現頻度を指し、

は文字セグメントの出現合計頻度を指す。

求めるのが文字セグメントの右エントロピーである場合、Ｃは文字セグメントの隣接後文文字セットであり、ｃはＣにおけるエレメントであり、

は文字セグメントが与えられた時に隣接後文ｃの出現頻度を指し、

は文字セグメントの出現頻度を指す。

以上により、文字セグメントの出現合計頻度、独立した１つの検索テキストとしての出現頻度、左エントロピーおよび右エントロピーを取得することができる。
実際の適用段階

マイニング対象となるターゲット検索テキストから少なくとも１種の長さの文字セグメントを抽出し、抽出された文字セグメントを組み合わせ、重複がある文字セグメントの組み合わせをフィルタリングし、ただし、文字セグメントを組み合わせた後にターゲット検索テキストをスプライスするのに十分ではない場合、ターゲット検索テキストにおける文字セグメントに入らない文字で補足する。

フィルタリングされた後の含んだ文字セグメントの数が最も少ない文字セグメントの組み合わせを候補セグメントの組み合わせとし、候補セグメントの組み合わせの数が１である場合、該文字セグメントの組み合わせを現在層文字セグメントの組み合わせとし、そうでなければ、候補セグメントの組み合わせにおける文字セグメントの左エントロピーと右エントロピーに基づいて、候補セグメントの組み合わせにスコアリングし、スコアリング結果に従って、候補セグメントの組み合わせから現在層文字セグメントの組み合わせを決定し、ただし、基本コーパス準備段階から文字セグメントの左エントロピーと右エントロピーを取得する。

具体的には、上記の候補セグメントの組み合わせにスコアリングする方法は複数種がある。任意的には、文字セグメントに対応する最大エントロピーを決定し、候補セグメントの組み合わせにおけるすべての文字セグメントの最大エントロピーの積を求め、積を求めた結果を候補セグメントの組み合わせのスコアリング結果とし、候補セグメントの組み合わせにおけるすべての文字セグメントの左エントロピーと右エントロピーの積を求め、積を求めた結果を候補セグメントの組み合わせのスコアリング結果とする。

任意的には、上記の候補セグメントの組み合わせのスコアリングの根拠は、文字セグメントの履歴出現頻度および／または独立したユーザー検索テキストとしての出現頻度であってもよい。

ターゲット検索テキストの階層分析ツリーを生成するように、単一の文字に達するまで前記現在層文字セグメントの組み合わせにおける文字セグメントを、分割し組み合わせ続く。

生成された階層分析ツリーに深度優先トラバースを行い、各サブツリーをトラバースするときに、サブルートノード及びすべてのサブノードにスコアリングし、親ノードスコアリングがサブノード総合スコアリングよりも大きい場合、このサブツリーのトラバースを終了し、このサブルートノードに対応する文字セグメントをターゲット検索テキストの分割とし、親ノードスコアリングがサブノード総合スコアリングの以下の場合、続いて下向きに深度優先トラバース計算を行う。

具体的には、次の式に従って各ノードにスコアリングし、
ｌｏｇ（ｑｕｅｒｙｐｖ）、
ただし、ｑｕｅｒｙｐｖは各文字セグメントが１つのユーザー検索テキストとしての出現の頻度である。

サブノード総合スコアリングは、すべてのサブノードのスコアリング結果の積であり、親ノードのスコアリング結果は親ノードスコアリングを基数とし、サブノードの数の累乗である。

階層分析ツリー全体のトラバースが完了すると、１つのターゲット検索テキストの分割パスを取得することができ、この分割パスにおける各文字セグメントを１つの候補語句と見なされる。

各候補語句は、長さ、ｎｇｒａｍｐｖ，ｑｕｅｒｙｐｖ、左エントロピーと右エントロピーなどの一連の特徴を抽出できる。これらの特徴に基づいて、候補語エントリであるかどうかことにスコアリングするための１つの分類器をトレーニングできる。

ただし、分類器をトレーニングするデータソースは複数種があり、人工的にアノテーションしてもよいし、何らかのトリガー式で生成してもよい。

いくつかのヒューマンコンピューターインタラクションシナリオでは、満足度が高いユーザー検索テキストに対応するスロットデータをアノテーションデータとして使用する。

スコアリング結果に従って、候補語句からターゲット分割語句を決定する。

異なる時間のターゲット分割語句にセット比較を行い、生成された新たな語句を取得することができる。

本願の実施例は、大規模なユーザー検索テキストを統計し、エントロピーに基づくユーザー検索テキストの階層分析ツリーを構築し、文字セグメントが独立したユーザー検索テキストとしての出現頻度に基づいて、ユーザー検索テキストの階層分析ツリーにパストラバースを行い、ユーザー検索テキストの分割結果を取得する。

本願の実施例は、ワードセグメンテーションツールに依存せず、分析結果を既存のワードセグメンテーションツールと組み合わせ、分割境界エラーの検出や新単語の発見などに用いられる。
第５の実施例

図６は本願の第５の実施例に係るテキストワードセグメンテーション装置の構造概略図である。図６を参照すると、本願の実施例に係るテキストワードセグメンテーション装置６００は、分割対象となるテキストを少なくとも２層の文字セグメントの組み合わせに区分するためのテキスト区分モジュール６０１と、前記少なくとも２層の文字セグメントの組み合わせに基づいて、ターゲット単語粒度に従って、前記分割対象となるテキストを分割するためのテキスト分割モジュール６０２と、を備え、ただし、いずれかの層の文字セグメントは上位層の文字セグメントのサブ文字セグメントおよび／または下位層の文字セグメントの親文字セグメントである。

さらには、前記組み合わせ決定ユニットは、前記候補文字セグメントの組み合わせから重なりがあった候補文字セグメントの組み合わせをフィルタリングし、ターゲット文字セグメントの組み合わせを取得するための組み合わせフィルタリングサブユニットと、前記ターゲット文字セグメントの組み合わせに含まれた前記候補文字セグメントの数と前記候補文字セグメントの履歴使用情報に従って、前記ターゲット文字セグメントの組み合わせから前記現在層文字セグメントの組み合わせを決定するための組み合わせ決定サブユニットと、を含む。

さらには、前記装置は、前記の前記分割対象となるテキストを分割した後、分割によって取得されたターゲット分割語句を、既存のワードセグメンテーションロジックに基づいて前記分割対象となるテキストを分割することによって取得された既存の分割語句と比較するための語句比較モジュールと、比較結果に従って、前記ターゲット分割語句からマイニング対象となる語句を決定するための語句マイニングモジュールと、をさらに含む。
第６の実施例

本願の実施例によれば、本願は電子デバイスと読み取り可能な記憶媒体をさらに提供する。

図７に示すように、本願の実施例に係るテキストワードセグメンテーションの方法の電子デバイスのブロック図である。電子デバイスは、ラップトップコンピューター、デスクトップコンピューター、ワークステーション、パーソナルデジタルアシスタント、サーバー、ブレードサーバー、メインフレーム、その他の適切なコンピューターなどのさまざまな態様のデジタルコンピューターを表すことを目的とする。電子デバイスは、パーソナルデジタル処理、セルラー方式の携帯電話、スマートフォン、ウェアラブルデバイス、及び他の同様のコンピューティング装置などのさまざまな態様のモバイル装置を表すこともできる。本文に示されるコンポーネント、それらの接続及び関係、ならびにそれらの機能は、単なる例であり、本文に記載されるおよび／または主張される本願の実現を限定することを意図しない。

図７に示すように、該電子デバイスは、１つまたは複数のプロセッサ７０１、メモリ７０２、及び高速インターフェース及び低速インターフェースを備える各コンポーネントを接続するためのインターフェースを備える。各コンポーネントは、異なるバスで相互に接続されており、共通のマザーボードにインストールしてもよいし、必要に応じて、他の方法でインストールしてもよい。プロセッサは、ＧＵＩのグラフィック情報を外部入／出力装置（インターフェースに結合されたディスプレイデバイスなど）に表示できるように、メモリ内またはメモリ上に記憶された命令を含む電子デバイスで実行された命令を処理でき、他の実施例では、必要とすれば、複数のプロセッサおよび／または複数のバスを、複数のメモリと共に使用することができる。同様に、複数の電子デバイスを接続でき、各デバイスはいくつかの必要な操作を提供する（例えば、サーバーアレイ、ブレードサーバーグループ、またはマルチプロセッサシステムとする）。図７では、１つのプロセッサ７０１を例にする。

メモリ７０２は、即ち、本願による非一時的なコンピューター読み取り可能な記憶媒体である。ただし、前記メモリは、少なくとも１つのプロセッサによって実行可能な命令を記憶するので、前記少なくとも１つのプロセッサに本願によるテキストワードセグメンテーションの方法を実行させる。本願の非一時的なコンピューター読み取り可能な記憶媒体は、コンピューターに本願によるテキストワードセグメンテーションの方法を実行させるためのコンピューター命令を記憶する。

メモリ７０２は非一時的なコンピューター読み取り可能な記憶媒体として、非一時的なソフトウェアプログラム、非一時的なコンピューターによって実行可能なプログラム、及びモジュールを記憶することに用いられ、例えば、本願の実施例のテキストワードセグメンテーションの方法に対応するプログラム命令／モジュール（例えば、図６に示されるテキスト区分モジュール６０１とテキスト分割モジュール６０２）。プロセッサ７０１は、メモリ７０２に記憶された非一時的なソフトウェアプログラム、命令及びモジュールを実行することによって、サーバの様々な機能アプリケーション及びデータ処理を実行し、即ち、上記方法の実施例のテキストワードセグメンテーションの方法を実現する。

メモリ７０２は、記憶プログラム領域と記憶データ領域を含んでもよく、ただし、記憶プログラム領域は、オペレーティングシステム、少なくとも１つの機能に必要なアプリケーションプログラムを記憶してもよく、記憶データ領域は、テキストワードセグメンテーションの電子デバイスの使用のため、作成されたデータなどを記憶することができ、また、メモリ７０２は、高速ランダムアクセスメモリを含んでもよく、さらに非一時的なメモリを含んでもよく、例えば、少なくとも１つの磁気ディスク記憶デバイス、フラッシュメモリデバイス、または他の非一時的なソリッドステートストレージデバイスなどの非一時的なメモリを含んでもよく、いくつかの実施例では、メモリ７０２は、プロセッサ７０１に対してリモートで設定されたメモリを選択してもよく、これらのリモートメモリは、ネットワークを介してテキストワードセグメンテーションの電子デバイスに接続されてもよい。上記のネットワークの例としては、インターネット、ブロックチェーンネットワーク、企業イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、及びそれらの組み合わせなどを含むが、これらに限定されない。

テキストワードセグメンテーションの方法の電子デバイスは、入力装置７０３及び出力装置７０４をさらに備えてよい。プロセッサ７０１、メモリ７０２、入力装置７０３、出力装置７０４は、バスなどで接続されてもよいが、図７にバスによる接続を例にする。

入力装置７０３は、入力デジタルまたは文字情報を受信し、テキストワードセグメンテーションの電子デバイスのユーザー設定及び機能制御に関連するキー信号入力を生成することができる。例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングスティック、１つ以上のマウスボタン、トラックボール、ジョイスティック、その他の入力装置。出力装置７０４は、ディスプレイデバイス、補助照明装置（例えば、ＬＥＤ）、触覚フィードバック装置（例えば、振動モーター）などを備えてもよい。該ディスプレイデバイスは、液晶ディスプレイ（ＬＣＤ）、発光ダイオード（ＬＥＤ）ディスプレイ、及びプラズマディスプレイを備えてもよい。いくつかの実施例では、ディスプレイデバイスはタッチスクリーンであってもよい。

ここでは説明されるシステム及び技術の様々な実施例は、デジタル電子回路システム、集積回路システム、特定用途向けＡＳＩＣ（特定用途向け集積回路）、コンピューターハードウェア、ファームウェア、ソフトウェア、および／またはそれらの組み合わせにおいて実現できる。これらの様々な実施例は、以下を含んでもよく、１つまたは複数のコンピュータープログラムに実施され、該１つまたは複数のコンピュータープログラムは、少なくとも１つのプログラマブルプロセッサを含むプログラマブルシステム上で実行および／または解釈されてもよく、該プログラマブルプロセッサは、ストレージシステム、少なくとも１つの入力装置、及び少なくとも１つの出力装置からデータと命令を受信し、そのデータと命令をストレージシステム、少なくとも１つの入力装置、及び少なくとも１つの出力装置に送信できる専用または汎用のプログラマブルプロセッサであってもよい。

これらのコンピュータープログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードとも呼ばれる）は、プログラマブルプロセッサの機械命令を含み、高レベルのプロセス及び／またはオブジェクト指向プログラミング言語、及び／またはアセンブリ／機械言語を利用してこれらのコンピュータープログラムを実施することができる。本文で使用されるように、「機械読み取り可能な媒体」及び「コンピューター読み取り可能な媒体」という用語は、プログラマブルプロセッサに機械命令および／またはデータを提供するために用いられる任意のコンピュータープログラム製品、デバイス、および／または装置（例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジック装置（ＰＬＤ）を指す。機械読み取り可能な信号である機械命令を受信する機械読み取り可能な媒体を含む。「機械読み取り可能な信号」という用語は、プログラマブルプロセッサに機械命令および／またはデータを提供するために用いられる任意の信号を指す。

ユーザーとの対話を提供するために、コンピューターにここでは説明されるシステム及び技術を実施してもよく、該コンピューターは、ユーザーに情報を表示するためのディスプレイ装置（例えば、ＣＲＴ（陰極線管）またはＬＣＤ（液晶ディスプレイ）モニター）、及びキーボードとポインティング装置（マウスやトラックボールなど）を備え、ユーザーが該キーボードとポインティング装置を介してコンピューターに入力を提供することができる。他のタイプの装置もユーザーとの対話を提供するために用いられ、例えば、ユーザーに提供されるフィードバックは、任意の形式の感覚フィードバック（例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバック）であってもよく、任意の形式（音入力、音声入力、または触覚入力を含み）でユーザーからの入力を受信することができる。

ここでは説明されるシステムと技術は、バックエンドコンポーネント（例えば、データサーバー）を含むコンピューターシステム、ミドルウェアコンポーネント（例えば、アプリケーションサーバー）を含むコンピューターシステム、またはフロントエンドコンポーネントを含むコンピューターシステム（例えば、グラフィカルユーザーインターフェイスまたはＷｅｂブラウザーを備え、ユーザーが該ラフィカルユーザーインターフェイスまたはＷｅｂブラウザーでシステムと技術の実施例と対話できるユーザーのコンピューター）、またはそのようなバックエンドコンポーネント、ミドルウェアコンポーネント、またはフロントエンドコンポーネントを含む任意の組み合わせに実施してもよく、システムのコンポーネントは、任意の形式または媒体のデジタルデータ通信（通信ネットワークなど）を介して相互に接続してもよい。通信ネットワークの例としては、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）、インターネット、ブロックチェーンネットワークが挙げられる。

コンピューターシステムは、クライアント及びサーバーを含んでもよい。クライアントとサーバーは、一般的に互いに離れており、通常は通信ネットワークを介して対話する。対応するコンピューター上で、互いにクライアント／サーバー関係を持つコンピュータープログラムを実行することによりクライアントとサーバーの関係を生成する。

なお、上記に示される様々な形態のプロセスを使用してソートし、ステップを追加し、削除できる。例えば、本願に記載される各ステップは、本願に開示される技術的解決手段の所望の結果を達成できる限り、並列、順次、または異なる順序で実行されてもよく、ここでは本文に限定されない。

上記の具体的な実施例は、本願の特許範囲を限定するものではない。当業者は、設計要件及び他の要因に応じて、様々な修正、組み合わせ、サブ組み合わせ、及び置換を行うことができると理解すべきである。本願の精神及び原則を逸脱せずに行われる補正、均等などな置換、改良などはすべて本願の特許範囲に含まれるべきである。

Claims

コンピューターにより実行されるテキストワードセグメンテーションの方法であって、
分割対象となるテキストを少なくとも２層の文字セグメントの組み合わせに区分して、分割対象となるテキスト及び文字セグメントをノードとするツリー構造を生成するステップであって、いずれかの層の文字セグメントは、上位層の文字セグメントを分割して得たサブ文字セグメント、および／または、下位層の文字セグメントを得るように分割される親文字セグメントであり、各層の文字セグメントの組み合わせにおける文字セグメントは、文字セグメント間に重複がないようにスプライスすることにより分割対象となるテキストを得られる、ステップと、
前記少なくとも２層の文字セグメントの組み合わせから、文字セグメントの長さがターゲット単語粒度に従った文字セグメントの組み合わせを、前記分割対象となるテキストを分割した分割語句の組み合わせとして決定するステップとを含む動作をプロセッサが実行する、
ことを特徴とする方法。
前記分割対象となるテキストを少なくとも２層の文字セグメントの組み合わせに区分して、分割対象となるテキスト及び文字セグメントをノードとするツリー構造を生成するステップは、
上位層の文字セグメントの組み合わせに属する上位層の文字セグメントから、少なくとも１種の長さの候補文字セグメントを抽出することと、
抽出された候補文字セグメントを組み合わせ、候補文字セグメントの組み合わせを取得することと、
前記候補文字セグメント間の重複関係および前記候補文字セグメントの履歴使用情報に従って、前記候補文字セグメントの組み合わせから、少なくとも１つの現在層文字セグメントを含む現在層文字セグメントの組み合わせを決定することと、を含むことを特徴とする請求項１に記載の方法。
前記の前記候補文字セグメント間の重複関係および前記候補文字セグメントの履歴使用情報に従って前記候補文字セグメントの組み合わせから現在層文字セグメントの組み合わせを決定することは、
前記候補文字セグメントの組み合わせから重複がある候補文字セグメントの組み合わせをフィルタリングし、ターゲット文字セグメントの組み合わせを取得することと、
前記ターゲット文字セグメントの組み合わせに含まれた前記候補文字セグメントの数と前記候補文字セグメントの履歴使用情報に従って、前記ターゲット文字セグメントの組み合わせから前記現在層文字セグメントの組み合わせを決定することと、を含むことを特徴とする請求項２に記載の方法。
前記の前記ターゲット文字セグメントの組み合わせに含まれた前記候補文字セグメントの数と前記候補文字セグメントの履歴使用情報に従って前記ターゲット文字セグメントの組み合わせから前記現在層文字セグメントの組み合わせを決定することは、
前記候補文字セグメントの履歴隣接文字情報に従って前記候補文字セグメントの情報エントロピーを計算することと、
計算された情報エントロピーに従って前記ターゲット文字セグメントの組み合わせの重みを決定することと、
前記ターゲット文字セグメントの組み合わせに含まれた前記候補文字セグメントの数と前記ターゲット文字セグメントの組み合わせの重みに従って、前記ターゲット文字セグメントの組み合わせから前記現在層文字セグメントの組み合わせを決定することと、を含むことを特徴とする請求項３に記載の方法。
前記の前記少なくとも２層の文字セグメントの組み合わせから、文字セグメントの長さがターゲット単語粒度に従った文字セグメントの組み合わせを、前記分割対象となるテキストを分割した分割語句の組み合わせとして決定するステップは、
前記文字セグメントの組み合わせにおける親文字セグメントの履歴使用情報に従って、前記親文字セグメントの重みを決定することと、
前記親文字セグメントに関連付けられたサブ文字セグメントの履歴使用情報に従って、前記サブ文字セグメントの総合重みを決定することと、
前記親文字セグメントの重みを前記サブ文字セグメントの総合重みと比較し、前記親文字セグメントの重みが前記サブ文字セグメントの総合重みよりも大きい場合、前記親文字セグメントが属するブランチのトラバースを終了し、前記親文字セグメントに関連付けられたサブ文字セグメントをターゲット分割セグメントとすることと、
前記ターゲット分割セグメントを組み合わせ、前記ターゲット分割セグメントの組み合わせから、文字セグメントの長さがターゲット単語粒度に従った文字セグメントの組み合わせを、前記分割対象となるテキストを分割した分割語句の組み合わせとして決定することと、を含むことを特徴とする請求項１に記載の方法。
前記の前記分割対象となるテキストを分割した後、前記動作は、
分割によって取得されたターゲット分割語句を、既存のワードセグメンテーションロジックに基づいて前記分割対象となるテキストを分割することによって取得された既存の分割語句と比較することと、
比較結果に従って、前記ターゲット分割語句からマイニング対象となる語句を決定することと、をさらに含むことを特徴とする請求項１に記載の方法。
テキストワードセグメンテーション装置であって、
分割対象となるテキストを少なくとも２層の文字セグメントの組み合わせに区分して、分割対象となるテキスト及び文字セグメントをノードとするツリー構造を生成する処理をプロセッサに実行させるように構成されるテキスト区分モジュールであって、いずれかの層の文字セグメントは、上位層の文字セグメントを分割して得たサブ文字セグメント、および／または、下位層の文字セグメントを得るように分割される親文字セグメントであり、各層の文字セグメントの組み合わせにおける文字セグメントは、文字セグメント間に重複がないようにスプライスすることにより分割対象となるテキストを得られる、モジュールと、
前記少なくとも２層の文字セグメントの組み合わせから、文字セグメントの長さがターゲット単語粒度に従った文字セグメントの組み合わせを、前記分割対象となるテキストを分割した分割語句の組み合わせとして決定する処理をプロセッサに実行させるように構成されるテキスト分割モジュールと、を含む、
ことを特徴とする装置。
前記テキスト分割モジュールは、
上位層の文字セグメントの組み合わせに属する上位層の文字セグメントから少なくとも１種の長さの候補文字セグメントを抽出する処理をプロセッサに実行させるように構成されるセグメント抽出ユニットと、
抽出された候補文字セグメントを組み合わせ、候補文字セグメントの組み合わせを取得する処理をプロセッサに実行させるように構成されるセグメント組み合わせユニットと、
前記候補文字セグメント間の重複関係および前記候補文字セグメントの履歴使用情報に従って、前記候補文字セグメントの組み合わせから、少なくとも１つの現在層文字セグメントを含む現在層文字セグメントの組み合わせを決定する処理をプロセッサに実行させるように構成される組み合わせ決定ユニットと、を含むことを特徴とする請求項７に記載の装置。
前記組み合わせ決定ユニットは、
前記候補文字セグメントの組み合わせから重複がある候補文字セグメントの組み合わせをフィルタリングし、ターゲット文字セグメントの組み合わせを取得する処理をプロセッサに実行させるように構成される組み合わせフィルタリングサブユニットと、
前記ターゲット文字セグメントの組み合わせに含まれた前記候補文字セグメントの数と前記候補文字セグメントの履歴使用情報に従って、前記ターゲット文字セグメントの組み合わせから前記現在層文字セグメントの組み合わせを決定する処理をプロセッサに実行させるように構成される組み合わせ決定サブユニットと、を含むことを特徴とする請求項８に記載の装置。
前記組み合わせ決定サブユニットは、
前記候補文字セグメントの履歴隣接文字情報に従って、前記候補文字セグメントの情報エントロピーを計算することと、
計算された情報エントロピーに従って前記ターゲット文字セグメントの組み合わせの重みを決定することと、
前記ターゲット文字セグメントの組み合わせに含まれた前記候補文字セグメントの数と前記ターゲット文字セグメントの組み合わせの重みに従って、前記ターゲット文字セグメントの組み合わせから前記現在層文字セグメントの組み合わせを決定することと、
を含む処理をプロセッサに実行させるように構成されることを特徴とする請求項９に記載の装置。
前記テキスト分割モジュールは、
分割セグメント決定ユニットであって、
前記文字セグメントの組み合わせにおける親文字セグメントの履歴使用情報に従って、前記親文字セグメントの重みを決定する処理をプロセッサに実行させるように構成される第１の重みサブユニットと、
前記親文字セグメントに関連付けられたサブ文字セグメントの履歴使用情報に従って、前記サブ文字セグメントの総合重みを決定する処理をプロセッサに実行させるように構成される第２の重みサブユニットと、
前記親文字セグメントの重みを前記サブ文字セグメントの総合重みと比較し、前記親文字セグメントの重みが前記サブ文字セグメントの総合重みよりも大きい場合、前記親文字セグメントが属するブランチのトラバースを終了し、前記親文字セグメントに関連付けられたサブ文字セグメントをターゲット分割セグメントとする処理をプロセッサに実行させるように構成される分割セグメント決定サブユニットと、を含む分割セグメント決定ユニットと、
前記ターゲット分割セグメントを組み合わせ、前記ターゲット分割セグメントの組み合わせから、文字セグメントの長さがターゲット単語粒度に従った文字セグメントの組み合わせを、前記分割対象となるテキストを分割した分割語句の組み合わせとして決定する処理をプロセッサに実行させるように構成されるテキスト分割ユニットと、を含むことを特徴とする請求項７に記載の装置。
電子デバイスであって、
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサと通信可能に接続されたメモリと、を備え、
前記メモリは、前記少なくとも１つのプロセッサによって実行可能な命令を記憶し、前記少なくとも１つのプロセッサが請求項１～６のいずれか１項に記載の方法を実行できるように、前記命令が前記少なくとも１つのプロセッサに実行されることを特徴とする電子デバイス。
コンピューター命令を記憶する非一時的なコンピューター読み取り可能な記憶媒体であって、前記コンピューター命令は、前記コンピューターに請求項１～６のいずれか１項に記載の方法を実行させることを特徴とする記憶媒体。
コンピュータープログラムであって、前記コンピュータープログラムがプロセッサによって実行されるとき、前記コンピューターに請求項１～６のいずれか１項に記載の方法を実行させることを特徴とするコンピュータープログラム。