JP7197542B2 - テキストワードセグメンテーションの方法、装置、デバイスおよび媒体 - Google Patents

テキストワードセグメンテーションの方法、装置、デバイスおよび媒体 Download PDF

Info

Publication number
JP7197542B2
JP7197542B2 JP2020159812A JP2020159812A JP7197542B2 JP 7197542 B2 JP7197542 B2 JP 7197542B2 JP 2020159812 A JP2020159812 A JP 2020159812A JP 2020159812 A JP2020159812 A JP 2020159812A JP 7197542 B2 JP7197542 B2 JP 7197542B2
Authority
JP
Japan
Prior art keywords
character
segment
segments
combination
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020159812A
Other languages
English (en)
Other versions
JP2021111342A (ja
Inventor
ドンミン マ
ベン シュ
シュウジェン リ
Original Assignee
バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド
シャンハイ シャオドゥ テクノロジー カンパニー リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド, シャンハイ シャオドゥ テクノロジー カンパニー リミテッド filed Critical バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド
Publication of JP2021111342A publication Critical patent/JP2021111342A/ja
Application granted granted Critical
Publication of JP7197542B2 publication Critical patent/JP7197542B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本願の実施例は、データ処理技術分野に関し、特にスマート検索技術に関する。具体的には、本願の実施例は、テキストワードセグメンテーションの方法、装置、デバイスおよび媒体を提供する。
自然言語では、ワードセグメンテーションは重要な基礎タスクである。ワードセグメンテーションの精度は後続の他のタスクに直接影響し、例えば分類、シークエンスアノテーション、検索、ソート等である。
既存のワードセグメンテーション解決手段は主にワードリストをマッチングすることにより、マッチング結果に基づいて語句の分割を行うことである。
しかしながら、上記解決手段は分割対象となるテキストに単語粒度の分割を行うことしかできない。
本願の実施例は、テキストの異なる単語粒度を分割するように、テキストワードセグメンテーションの方法、装置、デバイスおよび媒体を提供する。
本願の実施例は、テキストワードセグメンテーションの方法を提供し、前記方法は、分割対象となるテキストを少なくとも2層の文字セグメントの組み合わせに区分するステップと、前記少なくとも2層の文字セグメントの組み合わせに基づいて、ターゲット単語粒度に従って、前記分割対象となるテキストを分割するステップとを含み、ただし、いずれかの層の文字セグメントは上位層の文字セグメントのサブ文字セグメント、および/または下位層の文字セグメントの親文字セグメントである。
本願の実施例は、分割対象となるテキストを少なくとも2層の文字セグメントの組み合わせに区分し、前記少なくとも2層の文字セグメントの組み合わせに基づいて、ターゲット単語粒度に従って、前記分割対象となるテキストを分割する。各層の文字セグメントの組み合わせにおける文字セグメントの長さが異なるので、本願の実施例は、区分された少なくとも2層の文字セグメントの組み合わせに基づいて分割対象となるテキストの異なる単語粒度の分割を実現することができる。
さらには、前記分割対象となるテキストを少なくとも2層の文字セグメントの組み合わせに区分するステップは、上位層の文字セグメントの組み合わせに属する上位層の文字セグメントから、少なくとも1種の長さの候補文字セグメントを抽出することと、抽出された候補文字セグメントを組み合わせ、候補文字セグメントの組み合わせを取得することと、前記候補文字セグメント間の重複関係および前記候補文字セグメントの履歴使用情報に従って、前記候補文字セグメントの組み合わせから、少なくとも1つの現在層文字セグメントを含む現在層文字セグメントの組み合わせを決定することと、を含む。
該技術的特徴に基づいて、本願の実施例は、少なくとも1種の長さの候補文字セグメントを抽出し、抽出された候補文字セグメントを組み合わせ、前記候補文字セグメント間の重複関係および前記候補文字セグメントの履歴使用情報に従って、候補文字セグメントの組み合わせから現在層文字セグメントの組み合わせを決定することで、分割対象となるテキストの各層の文字セグメントの組み合わせの区分を実現する。
また、本願の実施例は、前記候補文字セグメント間の重複関係および前記候補文字セグメントの履歴使用情報に従って、各層の文字セグメントの組み合わせを決定し、該プロセスがワードリストに依存しないので、本願の実施例は、各層の文字セグメントの組み合わせに基づいて、ワードリストに記録されていない語句の分割を実現することができる。
さらには、前記の前記候補文字セグメント間の重複関係および前記候補文字セグメントの履歴使用情報に従って、前記候補文字セグメントの組み合わせから現在層文字セグメントの組み合わせを決定することは、前記候補文字セグメントの組み合わせから重複がある候補文字セグメントの組み合わせをフィルタリングし、ターゲット文字セグメントの組み合わせを取得することと、前記ターゲット文字セグメントの組み合わせに含まれた前記候補文字セグメントの数と前記候補文字セグメントの履歴使用情報に従って、前記ターゲット文字セグメントの組み合わせから前記現在層文字セグメントの組み合わせを決定することと、を含む。
該技術的特徴に基づいて、本願の実施例は、前記候補文字セグメントの組み合わせから重複がある候補文字セグメントの組み合わせをフィルタリングし、ターゲット文字セグメントの組み合わせを取得し、前記ターゲット文字セグメントの組み合わせに含まれた前記候補文字セグメントの数と前記候補文字セグメントの履歴使用情報に従って、前記ターゲット文字セグメントの組み合わせから前記現在層文字セグメントの組み合わせを決定することで、前記候補文字セグメント間の重複関係および前記候補文字セグメントの履歴使用情報に従って、現在層文字セグメントの組み合わせの決定を実現する。
さらには、前記の前記ターゲット文字セグメントの組み合わせに含まれた前記候補文字セグメントの数と前記候補文字セグメントの履歴使用情報に従って、前記ターゲット文字セグメントの組み合わせから前記現在層文字セグメントの組み合わせを決定することは、前記候補文字セグメントの履歴隣接文字情報に従って、前記候補文字セグメントの情報エントロピーを計算することと、計算された情報エントロピーに従って前記ターゲット文字セグメントの組み合わせの重みを決定することと、前記ターゲット文字セグメントの組み合わせに含まれた前記候補文字セグメントの数と前記ターゲット文字セグメントの組み合わせの重みに従って、前記ターゲット文字セグメントの組み合わせから前記現在層文字セグメントの組み合わせを決定することと、を含む。
該技術的特徴に基づいて、本願の実施例は、前記候補文字セグメントの履歴隣接文字情報に従って、前記候補文字セグメントの情報エントロピーを計算し、計算された情報エントロピーに従って前記ターゲット文字セグメントの組み合わせの重みを決定し、前記ターゲット文字セグメントの組み合わせに含まれた前記候補文字セグメントの数と前記ターゲット文字セグメントの組み合わせの重みに従って、前記ターゲット文字セグメントの組み合わせから前記現在層文字セグメントの組み合わせを決定することで、前記ターゲット文字セグメントの組み合わせに含まれた前記候補文字セグメントの数と前記候補文字セグメントの履歴使用情報に従って、現在層文字セグメントの組み合わせの決定を実現する。
また、前記候補文字セグメントの履歴隣接文字情報に従って、前記候補文字セグメントの情報エントロピーを計算し、計算された情報エントロピーに従って前記ターゲット文字セグメントの組み合わせの重みを決定し、計算された重みにターゲット文字セグメントの組み合わせにおける凝集度情報が含まれることで、語句の境界を決定する精度が向上し、さらにテキストワードセグメンテーションの精度が向上する。
さらには、前記の前記少なくとも2層の文字セグメントの組み合わせに基づいて、ターゲット単語粒度に従って、前記分割対象となるテキストを分割するステップは、文字セグメントの組み合わせにおける文字セグメントの履歴使用情報と異なる文字セグメントの組み合わせにおける文字セグメント間の親子関係に従って、前記文字セグメントの組み合わせの文字セグメントからターゲット分割セグメントを決定することと、前記ターゲット分割セグメントを組み合わせ、前記ターゲット分割セグメントの組み合わせに基づいて、ターゲット単語粒度に従って、前記分割対象となるテキストを分割することと、を含む。
該技術的特徴に基づいて、本願の実施例は、文字セグメントの組み合わせにおける文字セグメントの履歴使用情報と異なる文字セグメントの組み合わせにおける文字セグメント間の親子関係に従って、前記文字セグメントの組み合わせの文字セグメントからターゲット分割セグメントを決定することで、最適な分割単語粒度の決定を実現する。さらに最適な分割単語粒度に基づいて、分割対象となるテキストの正確な分割を実現できる。
さらには、前記文字セグメントの組み合わせにおける文字セグメントの履歴使用情報と異なる文字セグメントの組み合わせにおける文字セグメント間の親子関係に従って、前記文字セグメントの組み合わせの文字セグメントからターゲット分割セグメントを決定することは、前記文字セグメントの組み合わせにおける親文字セグメントの履歴使用情報に従って、前記親文字セグメントの重みを決定することと、前記親文字セグメントに関連付けられたサブ文字セグメントの履歴使用情報に従って、前記サブ文字セグメントの総合重みを決定することと、前記親文字セグメントの重みを前記サブ文字セグメントの総合重みと比較し、前記親文字セグメントの重みが前記サブ文字セグメントの総合重みよりも大きい場合、前記親文字セグメントが属するブランチのトラバースを終了し、前記親文字セグメントに関連付けられたサブ文字セグメントをターゲット分割セグメントとすることと、を含む。
該技術的特徴に基づいて、本願の実施例は、前記親文字セグメントの重みを前記サブ文字セグメントの総合重みと比較し、前記親文字セグメントの重みが前記サブ文字セグメントの総合重みよりも大きい場合、前記親文字セグメントが属するブランチのトラバースを終了し、前記親文字セグメントに関連付けられたサブ文字セグメントをターゲット分割セグメントとすることで、最適な分割単語粒度の決定を実現する。
さらには、前記の前記分割対象となるテキストを分割した後、前記方法は、分割によって取得されたターゲット分割語句を、既存のワードセグメンテーションロジックに基づいて前記分割対象となるテキストを分割することによって取得された既存の分割語句と比較することと、比較結果に従って、前記ターゲット分割語句からマイニング対象となる語句を決定することと、をさらに含む。
該技術的特徴に基づいて、本願の実施例は、分割によって取得されたターゲット分割語句を既存の分割語句と比較し、比較結果に従って、前記ターゲット分割語句からマイニング対象となる語句を決定することで、新たな語句のマイニングを実現する。
さらには、本願の実施例は、テキストワードセグメンテーション装置を提供しており、該装置は、分割対象となるテキストを少なくとも2層の文字セグメントの組み合わせに区分するためのテキスト区分モジュールと、前記少なくとも2層の文字セグメントの組み合わせに基づいて、ターゲット単語粒度に従って、前記分割対象となるテキストを分割するためのテキスト分割モジュールと、を含み、ただし、いずれかの層の文字セグメントは上位層の文字セグメントのサブ文字セグメントおよび/または下位層の文字セグメントの親文字セグメントである。
さらには、前記テキスト分割モジュールは、上位層の文字セグメントの組み合わせに属する上位層の文字セグメントから少なくとも1種の長さの候補文字セグメントを抽出するためのセグメント抽出ユニットと、抽出された候補文字セグメントを組み合わせ、候補文字セグメントの組み合わせを取得するためのセグメント組み合わせユニットと、前記候補文字セグメント間の重複関係および前記候補文字セグメントの履歴使用情報に従って、前記候補文字セグメントの組み合わせから、少なくとも1つの現在層文字セグメントを含む現在層文字セグメントの組み合わせを決定するための組み合わせ決定ユニットと、を含む。
さらには、前記組み合わせ決定ユニットは、前記候補文字セグメントの組み合わせから重複がある候補文字セグメントの組み合わせをフィルタリングし、ターゲット文字セグメントの組み合わせを取得するための組み合わせフィルタリングサブユニットと、前記ターゲット文字セグメントの組み合わせに含まれた前記候補文字セグメントの数と前記候補文字セグメントの履歴使用情報に従って、前記ターゲット文字セグメントの組み合わせから前記現在層文字セグメントの組み合わせを決定するための組み合わせ決定サブユニットと、を含む。
さらには、前記組み合わせ決定サブユニットは、具体的には、前記候補文字セグメントの履歴隣接文字情報に従って、前記候補文字セグメントの情報エントロピーを計算することと、計算された情報エントロピーに従って前記ターゲット文字セグメントの組み合わせの重みを決定することと、前記ターゲット文字セグメントの組み合わせに含まれた前記候補文字セグメントの数と前記ターゲット文字セグメントの組み合わせの重みに従って、前記ターゲット文字セグメントの組み合わせから前記現在層文字セグメントの組み合わせを決定することと、に用いられる。
さらには、前記テキスト分割モジュールは、文字セグメントの組み合わせにおける文字セグメントの履歴使用情報と異なる文字セグメントの組み合わせにおける文字セグメント間の親子関係に従って、前記文字セグメントの組み合わせの文字セグメントからターゲット分割セグメントを決定するための分割セグメント決定ユニットと、前記ターゲット分割セグメントを組み合わせ、前記ターゲット分割セグメントの組み合わせに基づいて、ターゲット単語粒度に従って、前記分割対象となるテキストを分割するためのテキスト分割ユニットと、を含む。
さらには、前記分割セグメント決定ユニットは、前記文字セグメントの組み合わせにおける親文字セグメントの履歴使用情報に従って、前記親文字セグメントの重みを決定するための第1の重みサブユニットと、前記親文字セグメントに関連付けられたサブ文字セグメントの履歴使用情報に従って、前記サブ文字セグメントの総合重みを決定するための第2の重みサブユニットと、前記親文字セグメントの重みを前記サブ文字セグメントの総合重みと比較し、前記親文字セグメントの重みが前記サブ文字セグメントの総合重みよりも大きい場合、前記親文字セグメントが属するブランチのトラバースを終了し、前記親文字セグメントに関連付けられたサブ文字セグメントをターゲット分割セグメントとするための分割セグメント決定サブユニットと、を含む。
さらには、前記装置は、前記の前記分割対象となるテキストを分割した後、分割によって取得されたターゲット分割語句を、既存のワードセグメンテーションロジックに基づいて前記分割対象となるテキストを分割することによって取得された既存の分割語句と比較するための語句比較モジュールと、比較結果に従って、前記ターゲット分割語句からマイニング対象となる語句を決定するための語句マイニングモジュールと、をさらに含む。
本発明の実施例は電子デバイスをさらに提供しており、前記デバイスは、少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサと通信可能に接続されたメモリと、を備え、前記メモリは、前記少なくとも1つのプロセッサによって実行可能な命令を記憶し、前記少なくとも1つのプロセッサが本願の実施例のいずれか1項に記載の方法を実行できるように、前記命令が前記少なくとも1つのプロセッサに実行される。
本発明の実施例は、コンピューター命令を記憶する非一時的なコンピューター読み取り可能な記憶媒体をさらに提供しており、前記コンピューター命令は、前記コンピューターに本願の実施例のいずれか1項に記載の方法を実行させる。
本発明の実施例はコンピュータープログラムをさらに提供しており、前記コンピュータープログラムがプロセッサによって実行されるとき、前記コンピューターに本願実施例のいずれか1項に記載の方法を実行させる。
図面は、技術的解決手段をよりよく理解するために用いられており、本願を限定するものではない。
本願の第1の実施例に係るテキストワードセグメンテーションの方法のフローチャートである。 本願の第1の実施例に係る分割対象となるテキストのレイヤーを区分する概略図である。 本願の第2の実施例に係るテキストワードセグメンテーションの方法のフローチャートである。 本願の第3の実施例に係るテキストワードセグメンテーションの方法のフローチャートである。 本願の第4の実施例に係る新たな語句マイニング方法のフローチャートである。 本願の第5の実施例に係るテキストワードセグメンテーション装置の構造概略図である。 本願の実施例に係るテキストワードセグメンテーションの方法の電子デバイスブロック図である。
以下、理解を容易にするために、図面を参照しながら本願の様々な詳細を含む例示的な実施例を説明するが、それらは例示的なものだけだと見られるべきである。したがって、当業者は、本願の範囲及び精神から逸脱することなく、ここでは記載された実施例に様々な変更及び修正できると認識するべきである。同様に、簡潔明瞭のために、以下の説明では、公知の機能及び構造の説明を省略する。
第1の実施例
図1は本願第1の実施例に係るテキストワードセグメンテーションの方法のフローチャートである。本実施例はテキストにワードセグメンテーションを行う場合に適用できる。典型的には、本願の実施例は、検索対象となるテキストにワードセグメンテーションを行う場合に適用できる。該方法はテキストワードセグメンテーション装置によって実行され、該装置はソフトウェアおよび/またはハードウェアの態様で実現される。図1を参照すると、本願の実施例に係るテキストワードセグメンテーションの方法は、以下のステップを含み、
S110、分割対象となるテキストを少なくとも2層の文字セグメントの組み合わせに区分し、ただし、いずれかの層の文字セグメントは上位層の文字セグメントのサブ文字セグメント、および/または下位層の文字セグメントの親文字セグメントである。
文字セグメントの組み合わせは少なくとも1つの文字セグメントを含み、各文字セグメントは、分割対象となるテキストにおける1つの文字または少なくとも2つの隣接文字によって決定される。
各文字セグメントは1種の長さの語句を示す。
各層の文字セグメントの組み合わせにおける少なくとも2つの文字セグメントをスプライスし、分割対象となるテキストを取得することができ、且つ、スプライスされた2つの文字セグメント間に重複がない。
具体的には、ワードリストにおける異なる粒度の語句に従って、分割対象となるテキストに少なくとも2層の文字セグメントの組み合わせの分割を行うようにしてもよい。
例示的には、図2を参照すると、分割対象となるテキストは、「恐▲竜▼机器人大恐▲竜▼机器人(恐竜ロボット、大きい恐竜ロボット)」である場合、区分された少なくとも2層の文字セグメントの組み合わせは、(「恐▲竜▼机器人(恐竜ロボット)」、「大恐▲竜▼机器人(大きい恐竜ロボット)」)、(「恐▲竜▼(恐竜)」、「机器人(ロボット)」、「大恐▲竜▼(大きい恐竜)」、「机器人」)、(「恐(恐)」、「▲竜▼(竜)」、「机器(機械)」、)「人(人)」、「大(大きい)」、「恐▲竜▼」、「机器」、「人」)、(「恐」、「▲竜▼」、「机」、「器」、「人」、「大」、「恐」、「▲竜▼」、「机」、「器」、「人」)である。
S120、前記少なくとも2層の文字セグメントの組み合わせに基づいて、ターゲット単語粒度に従って、前記分割対象となるテキストを分割する。
ただし、ターゲット単語粒度は分割対象となる単語粒度を指す。
具体的には、前記少なくとも2層の文字セグメントの組み合わせに基づいてターゲット単語粒度に従って前記分割対象となるテキストを分割するステップは、
ターゲット単語粒度に従って、前記少なくとも2層の文字セグメントの組み合わせから一組み合わせを決定し、該組み合わせにおける各文字セグメントに従って、前記分割対象となるテキストを分割することを含む。
本願の実施例は、分割対象となるテキストを少なくとも2層の文字セグメントの組み合わせに区分し、前記少なくとも2層の文字セグメントの組み合わせに基づいて、ターゲット単語粒度に従って、前記分割対象となるテキストを分割する。各層の文字セグメントの組み合わせにおける文字セグメントの長さが異なるので、本願の実施例は、区分された少なくとも2層の文字セグメントの組み合わせに基づいて分割対象となるテキストの異なる単語粒度の分割を実現することができる。
新たな語句のマイニングを実現するために、前記の前記分割対象となるテキストを分割した後、前記方法は、分割によって取得されたターゲット分割語句を、既存のワードセグメンテーションロジックに基づいて前記分割対象となるテキストを分割することによって取得された既存の分割語句と比較することと、比較結果に従って、前記ターゲット分割語句からマイニング対象となる語句を決定することと、をさらに含む。
第2の実施例
図3は本願第2の実施例に係るテキストワードセグメンテーションの方法のフローチャートである。本実施例は上記の実施例に基づいて提供される選択可能な解決手段である。図3を参照すると、本願の実施例に係るテキストワードセグメンテーションの方法は、以下のステップを含み、
S210、上位層の文字セグメントから少なくとも1種の長さの候補文字セグメントを抽出し、ただし、前記上位層の文字セグメント上位層の文字セグメントの組み合わせに属する。
具体的には、上分割対象となるテキストを区分することによって位層の文字セグメントを決定できる。
具体的には、n-gramアルゴリズムdeで少なくとも1種の長さの候補文字セグメントの抽出を実現できる。
S220、抽出された候補文字セグメントを組み合わせ、候補文字セグメントの組み合わせを取得する。
具体的には、候補文字セグメントの組み合わせを取得するように、分割対象となるテキストにおける語句間の連接関係に従って、抽出された候補文字セグメントを組み合わせる。
S230、分割対象となるテキストを少なくとも2層の文字セグメントの組み合わせに区分することを実現するように、前記候補文字セグメント間の重複関係および前記候補文字セグメントの履歴使用情報に従って、前記候補文字セグメントの組み合わせから、少なくとも1つの現在層文字セグメントを含む現在層文字セグメントの組み合わせを決定する。
具体的には、前記候補文字セグメント間の重複関係は、候補文字セグメント間に重複があることおよび候補文字セグメント間に重複がないことを含む。
履歴使用情報は、単一文としての出現の頻度と隣接文字情報としての出現の合計頻度を含む。
隣接文字情報は隣接の文字および隣接文字の出現情報を含む。
具体的には、前記の前記候補文字セグメント間の重複関係および前記候補文字セグメントの履歴使用情報に従って、前記候補文字セグメントの組み合わせから現在層文字セグメントの組み合わせを決定することは、前記候補文字セグメントの組み合わせから重複がある候補文字セグメントの組み合わせをフィルタリングし、ターゲット文字セグメントの組み合わせを取得することと、前記ターゲット文字セグメントの組み合わせに含まれた前記候補文字セグメントの数と前記候補文字セグメントの履歴使用情報に従って、前記ターゲット文字セグメントの組み合わせから前記現在層文字セグメントの組み合わせを決定することと、を含む。
例示的には、分割対象となるテキストは次のとおりであり、私は張さんの漫才を聞くのが好きである。候補文字セグメントは、私、私が好き、聞くのが好き、張さんを聞く、張を聞く、張さんの、三の、漫才、相と声を含むがこれらに限定されない。候補文字セグメントの組み合わせは、(私、聞くのが好き、張さんの、漫才)、(私が好き、聞くのが好き、張さんの、漫才)、(私、張さんを聞く、漫才)、(私が好き、張を聞く、張さんの、漫才)を含んでもよい。(私が好き、聞くのが好き、張さんの、漫才)に「好き」が重複であり、(私が好き、張を聞く、張さんの、漫才)に「張」が重複であるため、(私が好き、聞くのが好き、張さんの、漫才)と(私が好き、張を聞く、張さんの、漫才)を候補文字セグメントの組み合わせからフィルタリングし削除する。
具体的には、前記の前記ターゲット文字セグメントの組み合わせに含まれた前記候補文字セグメントの数と前記候補文字セグメントの履歴使用情報に従って、前記ターゲット文字セグメントの組み合わせから前記現在層文字セグメントの組み合わせを決定することは、前記候補文字セグメントの履歴隣接文字情報に従って、前記候補文字セグメントの情報エントロピーを計算することと、計算された情報エントロピーに従って前記ターゲット文字セグメントの組み合わせの重みを決定することと、前記ターゲット文字セグメントの組み合わせに含まれた前記候補文字セグメントの数と前記ターゲット文字セグメントの組み合わせの重みに従って、前記ターゲット文字セグメントの組み合わせから前記現在層文字セグメントの組み合わせを決定することと、を含む。
具体的には、前記ターゲット文字セグメントの組み合わせに含まれた前記候補文字セグメントの数と前記ターゲット文字セグメントの組み合わせの重みに従って、前記ターゲット文字セグメントの組み合わせから前記現在層文字セグメントの組み合わせを決定することは、前記ターゲット文字セグメントの組み合わせにおける、重みが最も高くて文字セグメントを含む数が最も少ないターゲット文字セグメントの組み合わせを、現在層文字セグメントの組み合わせとすることを含む。
S240、前記少なくとも2層の文字セグメントの組み合わせに基づいて、ターゲット単語粒度に従って、前記分割対象となるテキストを分割する。
本願の実施例は、少なくとも1種の長さの候補文字セグメントを抽出し、抽出された候補文字セグメントを組み合わせ、前記候補文字セグメント間の重複関係および前記候補文字セグメントの履歴使用情報に従って、候補文字セグメントの組み合わせから現在層文字セグメントの組み合わせを決定することで、分割対象となるテキストの各層の文字セグメントの組み合わせの区分を実現する。
また、本願の実施例は、前記候補文字セグメント間の重複関係および前記候補文字セグメントの履歴使用情報に従って、各層の文字セグメントの組み合わせを決定し、該プロセスワードリストに依存しないので、本願の実施例は、各層の文字セグメントの組み合わせに基づいて、ワードリストに記録されていない語句の分割を実現することができる。
第3の実施例
図4は本願の第3の実施例に係るテキストワードセグメンテーションの方法のフローチャートである。本実施例は上記の実施例に基づいて提供される選択可能な解決手段である。図4を参照すると、本願の実施例に係るテキストワードセグメンテーションの方法は、以下のステップを含み、
S310、分割対象となるテキストを少なくとも2層の文字セグメントの組み合わせに区分し、ただし、いずれかの層の文字セグメントは上位層の文字セグメントのサブ文字セグメントおよび/または下位層の文字セグメントの親文字セグメントである。
S320、文字セグメントの組み合わせにおける文字セグメントの履歴使用情報と異なる文字セグメントの組み合わせにおける文字セグメント間の親子関係に従って、前記文字セグメントの組み合わせの文字セグメントからターゲット分割セグメントを決定する。
ただし、ターゲット分割セグメントは分割の根拠としての文字セグメントを指す。
具体的には、前記文字セグメントの組み合わせにおける文字セグメントの履歴使用情報と異なる文字セグメントの組み合わせにおける文字セグメント間の親子関係に従って、前記文字セグメントの組み合わせの文字セグメントからターゲット分割セグメントを決定することは、前記文字セグメントの組み合わせにおける親文字セグメントの履歴使用情報に従って、前記親文字セグメントの重みを決定することと、前記親文字セグメントに関連付けられたサブ文字セグメントの履歴使用情報に従って、前記サブ文字セグメントの総合重みを決定することと、前記親文字セグメントの重みを前記サブ文字セグメントの総合重みと比較し、前記親文字セグメントの重みが前記サブ文字セグメントの総合重みよりも大きい場合、前記親文字セグメントが属するブランチのトラバースを終了し、前記親文字セグメントに関連付けられたサブ文字セグメントをターゲット分割セグメントとすることと、を含む。
ただし、親文字セグメントの重みは、親文字セグメントが単独に1つの語句とする可能性を示す。
サブ文字セグメントの総合重みは、サブ文字セグメントが単独に1つの語句とする可能性を示す。
具体的には、前記文字セグメントの組み合わせにおける親文字セグメントの履歴使用情報に従って、前記親文字セグメントの重みを決定することは、親文字セグメント履歴が単独にセンテンスとする出現の頻度に従って、親文字セグメントの重みを決定することと、前記親文字セグメントに関連付けられたサブ文字セグメントの履歴使用情報に従って、前記サブ文字セグメントの総合重みを決定することと、親文字セグメントに関連付けられたサブ文字セグメント履歴が単独にセンテンスとする出現の頻度に従って、サブ文字セグメントの総合重みを決定することと、を含む。
任意的には、サブ文字セグメントの履歴出現頻度および/履歴隣接文字情報に従って、サブ文字セグメントの総合重みをさらに決定してもよい。本実施例はこれにいかなる限定をしない。
S330、前記ターゲット分割セグメントを組み合わせ、前記ターゲット分割セグメントの組み合わせに基づいて、ターゲット単語粒度に従って、前記分割対象となるテキストを分割する。
本願の実施例の技術的な解決手段は、文字セグメントの組み合わせにおける文字セグメントの履歴使用情報と異なる文字セグメントの組み合わせにおける文字セグメント間の親子関係に従って、前記文字セグメントの組み合わせの文字セグメントからターゲット分割セグメントを決定することで、最適な分割単語粒度の決定を実現し、さらに最適な分割単語粒度に基づいて、分割対象となるテキストの正確な分割を実現できる。
第4の実施例
図5は本願第4の実施例に係る新たな語句マイニング方法のフローチャートである。本実施例は、上記の実施例に基づいて、テキストワードセグメンテーションの方法を新たな語句マイニングシナリオに適用することにより提出される選択可能な適用解決手段である。図5を参照すると、本願の実施例に係る新たな語句マイニング方法は、以下を含み、基本コーパス準備段階、履歴期間のユーザー検索テキストを収集し、コーパススを作成し、且つコーパスにおけるユーザー検索テキストの使用頻度を統計する。コーパスにおける各ユーザー検索テキストに少なくとも1種の長さの文字セグメントを抽出し、ただし、抽出した最大長さは、語句の最大長さにより決定される。文字セグメントのコーパスにおける出現頻度、文字セグメントが1つのセンテンスとしての出現頻度、文字セグメントの隣接文字および隣接文字の出現頻度を統計する。
コーパスにおける各ユーザー検索テキストを統計した後、〈ngram,ngram pv,query pv,left words stat dict,right words stat dict〉のような情報を取得することができ、Ngramは文字セグメントを指す。Ngram pvは、文字セグメントが局所セグメントとしての出現の頻度、即ち文字セグメントのコーパスにおける出現合計頻度を指す。Query pvは、文字セグメントが1つのユーザー検索テキストとしての出現の頻度を指し、その文字セグメントの独立した検索能力を表し、文字セグメントがユーザー検索テキストとしての出現の頻度が高いほど文字セグメントの凝集度がより高い。left words stat dictは、mapの1つのタイプであり、ただし、keyは文字セグメントの隣接前文文字であり、valueは該文字が文字セグメントとしての出現頻度である。right words stat dictもmapの1つのタイプであり、ただし、mapは文字セグメントの隣接後文文字であり、valueは該文字が文字セグメントとしての出現頻度である。
具体的には、次の式に従って文字セグメントの左エントロピーまたは右エントロピーを決定し、
Figure 0007197542000001
求めるのが文字セグメントの左エントロピーである場合、Cは文字セグメントの隣接前文文字セットであり、cはCにおけるエレメントであり、
Figure 0007197542000002

は、文字セグメントが与えられた時に隣接前文cの出現頻度を指し、
Figure 0007197542000003

は文字セグメントの出現合計頻度を指す。
求めるのが文字セグメントの右エントロピーである場合、Cは文字セグメントの隣接後文文字セットであり、cはCにおけるエレメントであり、
Figure 0007197542000004

は文字セグメントが与えられた時に隣接後文cの出現頻度を指し、
Figure 0007197542000005

は文字セグメントの出現頻度を指す。
以上により、文字セグメントの出現合計頻度、独立した1つの検索テキストとしての出現頻度、左エントロピーおよび右エントロピーを取得することができる。
実際の適用段階
マイニング対象となるターゲット検索テキストから少なくとも1種の長さの文字セグメントを抽出し、抽出された文字セグメントを組み合わせ、重複がある文字セグメントの組み合わせをフィルタリングし、ただし、文字セグメントを組み合わせた後にターゲット検索テキストをスプライスするのに十分ではない場合、ターゲット検索テキストにおける文字セグメントに入らない文字で補足する。
フィルタリングされた後の含んだ文字セグメントの数が最も少ない文字セグメントの組み合わせを候補セグメントの組み合わせとし、候補セグメントの組み合わせの数が1である場合、該文字セグメントの組み合わせを現在層文字セグメントの組み合わせとし、そうでなければ、候補セグメントの組み合わせにおける文字セグメントの左エントロピーと右エントロピーに基づいて、候補セグメントの組み合わせにスコアリングし、スコアリング結果に従って、候補セグメントの組み合わせから現在層文字セグメントの組み合わせを決定し、ただし、基本コーパス準備段階から文字セグメントの左エントロピーと右エントロピーを取得する。
具体的には、上記の候補セグメントの組み合わせにスコアリングする方法は複数種がある。任意的には、文字セグメントに対応する最大エントロピーを決定し、候補セグメントの組み合わせにおけるすべての文字セグメントの最大エントロピーの積を求め、積を求めた結果を候補セグメントの組み合わせのスコアリング結果とし、候補セグメントの組み合わせにおけるすべての文字セグメントの左エントロピーと右エントロピーの積を求め、積を求めた結果を候補セグメントの組み合わせのスコアリング結果とする。
任意的には、上記の候補セグメントの組み合わせのスコアリングの根拠は、文字セグメントの履歴出現頻度および/または独立したユーザー検索テキストとしての出現頻度であってもよい。
ターゲット検索テキストの階層分析ツリーを生成するように、単一の文字に達するまで前記現在層文字セグメントの組み合わせにおける文字セグメントを、分割し組み合わせ続く。
生成された階層分析ツリーに深度優先トラバースを行い、各サブツリーをトラバースするときに、サブルートノード及びすべてのサブノードにスコアリングし、親ノードスコアリングがサブノード総合スコアリングよりも大きい場合、このサブツリーのトラバースを終了し、このサブルートノードに対応する文字セグメントをターゲット検索テキストの分割とし、親ノードスコアリングがサブノード総合スコアリングの以下の場合、続いて下向きに深度優先トラバース計算を行う。
具体的には、次の式に従って各ノードにスコアリングし、
log(query pv)、
ただし、query pvは各文字セグメントが1つのユーザー検索テキストとしての出現の頻度である。
サブノード総合スコアリングは、すべてのサブノードのスコアリング結果の積であり、親ノードのスコアリング結果は親ノードスコアリングを基数とし、サブノードの数の累乗である。
階層分析ツリー全体のトラバースが完了すると、1つのターゲット検索テキストの分割パスを取得することができ、この分割パスにおける各文字セグメントを1つの候補語句と見なされる。
各候補語句は、長さ、ngram pv,query pv、左エントロピーと右エントロピーなどの一連の特徴を抽出できる。これらの特徴に基づいて、候補語エントリであるかどうかことにスコアリングするための1つの分類器をトレーニングできる。
ただし、分類器をトレーニングするデータソースは複数種があり、人工的にアノテーションしてもよいし、何らかのトリガー式で生成してもよい。
いくつかのヒューマンコンピューターインタラクションシナリオでは、満足度が高いユーザー検索テキストに対応するスロットデータをアノテーションデータとして使用する。
スコアリング結果に従って、候補語句からターゲット分割語句を決定する。
異なる時間のターゲット分割語句にセット比較を行い、生成された新たな語句を取得することができる。
本願の実施例は、大規模なユーザー検索テキストを統計し、エントロピーに基づくユーザー検索テキストの階層分析ツリーを構築し、文字セグメントが独立したユーザー検索テキストとしての出現頻度に基づいて、ユーザー検索テキストの階層分析ツリーにパストラバースを行い、ユーザー検索テキストの分割結果を取得する。
本願の実施例は、ワードセグメンテーションツールに依存せず、分析結果を既存のワードセグメンテーションツールと組み合わせ、分割境界エラーの検出や新単語の発見などに用いられる。
第5の実施例
図6は本願の第5の実施例に係るテキストワードセグメンテーション装置の構造概略図である。図6を参照すると、本願の実施例に係るテキストワードセグメンテーション装置600は、分割対象となるテキストを少なくとも2層の文字セグメントの組み合わせに区分するためのテキスト区分モジュール601と、前記少なくとも2層の文字セグメントの組み合わせに基づいて、ターゲット単語粒度に従って、前記分割対象となるテキストを分割するためのテキスト分割モジュール602と、を備え、ただし、いずれかの層の文字セグメントは上位層の文字セグメントのサブ文字セグメントおよび/または下位層の文字セグメントの親文字セグメントである。
本願の実施例は、分割対象となるテキストを少なくとも2層の文字セグメントの組み合わせに区分し、前記少なくとも2層の文字セグメントの組み合わせに基づいて、ターゲット単語粒度に従って、前記分割対象となるテキストを分割する。各層の文字セグメントの組み合わせにおける文字セグメントの長さが異なるので、本願の実施例は、区分された少なくとも2層の文字セグメントの組み合わせに基づいて分割対象となるテキストの異なる単語粒度の分割を実現することができる。
さらには、前記テキスト分割モジュールは、上位層の文字セグメントの組み合わせに属する上位層の文字セグメントから少なくとも1種の長さの候補文字セグメントを抽出するためのセグメント抽出ユニットと、抽出された候補文字セグメントを組み合わせ、候補文字セグメントの組み合わせを取得するためのセグメント組み合わせユニットと、前記候補文字セグメント間の重複関係および前記候補文字セグメントの履歴使用情報に従って、前記候補文字セグメントの組み合わせから、少なくとも1つの現在層文字セグメントを含む現在層文字セグメントの組み合わせを決定するための組み合わせ決定ユニットと、を含む。
さらには、前記組み合わせ決定ユニットは、前記候補文字セグメントの組み合わせから重なりがあった候補文字セグメントの組み合わせをフィルタリングし、ターゲット文字セグメントの組み合わせを取得するための組み合わせフィルタリングサブユニットと、前記ターゲット文字セグメントの組み合わせに含まれた前記候補文字セグメントの数と前記候補文字セグメントの履歴使用情報に従って、前記ターゲット文字セグメントの組み合わせから前記現在層文字セグメントの組み合わせを決定するための組み合わせ決定サブユニットと、を含む。
さらには、前記組み合わせ決定サブユニットは、具体的には、前記候補文字セグメントの履歴隣接文字情報に従って、前記候補文字セグメントの情報エントロピーを計算することと、計算された情報エントロピーに従って前記ターゲット文字セグメントの組み合わせの重みを決定することと、前記ターゲット文字セグメントの組み合わせに含まれた前記候補文字セグメントの数と前記ターゲット文字セグメントの組み合わせの重みに従って、前記ターゲット文字セグメントの組み合わせから前記現在層文字セグメントの組み合わせを決定することと、に用いられる。
さらには、前記テキスト分割モジュールは、文字セグメントの組み合わせにおける文字セグメントの履歴使用情報と異なる文字セグメントの組み合わせにおける文字セグメント間の親子関係に従って、前記文字セグメントの組み合わせの文字セグメントからターゲット分割セグメントを決定するための分割セグメント決定ユニットと、前記ターゲット分割セグメントを組み合わせ、前記ターゲット分割セグメントの組み合わせに基づいて、ターゲット単語粒度に従って、前記分割対象となるテキストを分割するためのテキスト分割ユニットと、を含む。
さらには、前記分割セグメント決定ユニットは、前記文字セグメントの組み合わせにおける親文字セグメントの履歴使用情報に従って、前記親文字セグメントの重みを決定するための第1の重みサブユニットと、前記親文字セグメントに関連付けられたサブ文字セグメントの履歴使用情報に従って、前記サブ文字セグメントの総合重みを決定するための第2の重みサブユニットと、前記親文字セグメントの重みを前記サブ文字セグメントの総合重みと比較し、前記親文字セグメントの重みが前記サブ文字セグメントの総合重みよりも大きい場合、前記親文字セグメントが属するブランチのトラバースを終了し、前記親文字セグメントに関連付けられたサブ文字セグメントをターゲット分割セグメントとするための分割セグメント決定サブユニットと、を含む。
さらには、前記装置は、前記の前記分割対象となるテキストを分割した後、分割によって取得されたターゲット分割語句を、既存のワードセグメンテーションロジックに基づいて前記分割対象となるテキストを分割することによって取得された既存の分割語句と比較するための語句比較モジュールと、比較結果に従って、前記ターゲット分割語句からマイニング対象となる語句を決定するための語句マイニングモジュールと、をさらに含む。
第6の実施例
本願の実施例によれば、本願は電子デバイスと読み取り可能な記憶媒体をさらに提供する。
図7に示すように、本願の実施例に係るテキストワードセグメンテーションの方法の電子デバイスのブロック図である。電子デバイスは、ラップトップコンピューター、デスクトップコンピューター、ワークステーション、パーソナルデジタルアシスタント、サーバー、ブレードサーバー、メインフレーム、その他の適切なコンピューターなどのさまざまな態様のデジタルコンピューターを表すことを目的とする。電子デバイスは、パーソナルデジタル処理、セルラー方式の携帯電話、スマートフォン、ウェアラブルデバイス、及び他の同様のコンピューティング装置などのさまざまな態様のモバイル装置を表すこともできる。本文に示されるコンポーネント、それらの接続及び関係、ならびにそれらの機能は、単なる例であり、本文に記載されるおよび/または主張される本願の実現を限定することを意図しない。
図7に示すように、該電子デバイスは、1つまたは複数のプロセッサ701、メモリ702、及び高速インターフェース及び低速インターフェースを備える各コンポーネントを接続するためのインターフェースを備える。各コンポーネントは、異なるバスで相互に接続されており、共通のマザーボードにインストールしてもよいし、必要に応じて、他の方法でインストールしてもよい。プロセッサは、GUIのグラフィック情報を外部入/出力装置(インターフェースに結合されたディスプレイデバイスなど)に表示できるように、メモリ内またはメモリ上に記憶された命令を含む電子デバイスで実行された命令を処理でき、他の実施例では、必要とすれば、複数のプロセッサおよび/または複数のバスを、複数のメモリと共に使用することができる。同様に、複数の電子デバイスを接続でき、各デバイスはいくつかの必要な操作を提供する(例えば、サーバーアレイ、ブレードサーバーグループ、またはマルチプロセッサシステムとする)。図7では、1つのプロセッサ701を例にする。
メモリ702は、即ち、本願による非一時的なコンピューター読み取り可能な記憶媒体である。ただし、前記メモリは、少なくとも1つのプロセッサによって実行可能な命令を記憶するので、前記少なくとも1つのプロセッサに本願によるテキストワードセグメンテーションの方法を実行させる。本願の非一時的なコンピューター読み取り可能な記憶媒体は、コンピューターに本願によるテキストワードセグメンテーションの方法を実行させるためのコンピューター命令を記憶する。
メモリ702は非一時的なコンピューター読み取り可能な記憶媒体として、非一時的なソフトウェアプログラム、非一時的なコンピューターによって実行可能なプログラム、及びモジュールを記憶することに用いられ、例えば、本願の実施例のテキストワードセグメンテーションの方法に対応するプログラム命令/モジュール(例えば、図6に示されるテキスト区分モジュール601とテキスト分割モジュール602)。プロセッサ701は、メモリ702に記憶された非一時的なソフトウェアプログラム、命令及びモジュールを実行することによって、サーバの様々な機能アプリケーション及びデータ処理を実行し、即ち、上記方法の実施例のテキストワードセグメンテーションの方法を実現する。
メモリ702は、記憶プログラム領域と記憶データ領域を含んでもよく、ただし、記憶プログラム領域は、オペレーティングシステム、少なくとも1つの機能に必要なアプリケーションプログラムを記憶してもよく、記憶データ領域は、テキストワードセグメンテーションの電子デバイスの使用のため、作成されたデータなどを記憶することができ、また、メモリ702は、高速ランダムアクセスメモリを含んでもよく、さらに非一時的なメモリを含んでもよく、例えば、少なくとも1つの磁気ディスク記憶デバイス、フラッシュメモリデバイス、または他の非一時的なソリッドステートストレージデバイスなどの非一時的なメモリを含んでもよく、いくつかの実施例では、メモリ702は、プロセッサ701に対してリモートで設定されたメモリを選択してもよく、これらのリモートメモリは、ネットワークを介してテキストワードセグメンテーションの電子デバイスに接続されてもよい。上記のネットワークの例としては、インターネット、ブロックチェーンネットワーク、企業イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、及びそれらの組み合わせなどを含むが、これらに限定されない。
テキストワードセグメンテーションの方法の電子デバイスは、入力装置703及び出力装置704をさらに備えてよい。プロセッサ701、メモリ702、入力装置703、出力装置704は、バスなどで接続されてもよいが、図7にバスによる接続を例にする。
入力装置703は、入力デジタルまたは文字情報を受信し、テキストワードセグメンテーションの電子デバイスのユーザー設定及び機能制御に関連するキー信号入力を生成することができる。例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングスティック、1つ以上のマウスボタン、トラックボール、ジョイスティック、その他の入力装置。出力装置704は、ディスプレイデバイス、補助照明装置(例えば、LED)、触覚フィードバック装置(例えば、振動モーター)などを備えてもよい。該ディスプレイデバイスは、液晶ディスプレイ(LCD)、発光ダイオード(LED)ディスプレイ、及びプラズマディスプレイを備えてもよい。いくつかの実施例では、ディスプレイデバイスはタッチスクリーンであってもよい。
ここでは説明されるシステム及び技術の様々な実施例は、デジタル電子回路システム、集積回路システム、特定用途向けASIC(特定用途向け集積回路)、コンピューターハードウェア、ファームウェア、ソフトウェア、および/またはそれらの組み合わせにおいて実現できる。これらの様々な実施例は、以下を含んでもよく、1つまたは複数のコンピュータープログラムに実施され、該1つまたは複数のコンピュータープログラムは、少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステム上で実行および/または解釈されてもよく、該プログラマブルプロセッサは、ストレージシステム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータと命令を受信し、そのデータと命令をストレージシステム、少なくとも1つの入力装置、及び少なくとも1つの出力装置に送信できる専用または汎用のプログラマブルプロセッサであってもよい。
これらのコンピュータープログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードとも呼ばれる)は、プログラマブルプロセッサの機械命令を含み、高レベルのプロセス及び/またはオブジェクト指向プログラミング言語、及び/またはアセンブリ/機械言語を利用してこれらのコンピュータープログラムを実施することができる。本文で使用されるように、「機械読み取り可能な媒体」及び「コンピューター読み取り可能な媒体」という用語は、プログラマブルプロセッサに機械命令および/またはデータを提供するために用いられる任意のコンピュータープログラム製品、デバイス、および/または装置(例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジック装置(PLD)を指す。機械読み取り可能な信号である機械命令を受信する機械読み取り可能な媒体を含む。「機械読み取り可能な信号」という用語は、プログラマブルプロセッサに機械命令および/またはデータを提供するために用いられる任意の信号を指す。
ユーザーとの対話を提供するために、コンピューターにここでは説明されるシステム及び技術を実施してもよく、該コンピューターは、ユーザーに情報を表示するためのディスプレイ装置(例えば、CRT(陰極線管)またはLCD(液晶ディスプレイ)モニター)、及びキーボードとポインティング装置(マウスやトラックボールなど)を備え、ユーザーが該キーボードとポインティング装置を介してコンピューターに入力を提供することができる。他のタイプの装置もユーザーとの対話を提供するために用いられ、例えば、ユーザーに提供されるフィードバックは、任意の形式の感覚フィードバック(例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバック)であってもよく、任意の形式(音入力、音声入力、または触覚入力を含み)でユーザーからの入力を受信することができる。
ここでは説明されるシステムと技術は、バックエンドコンポーネント(例えば、データサーバー)を含むコンピューターシステム、ミドルウェアコンポーネント(例えば、アプリケーションサーバー)を含むコンピューターシステム、またはフロントエンドコンポーネントを含むコンピューターシステム(例えば、グラフィカルユーザーインターフェイスまたはWebブラウザーを備え、ユーザーが該ラフィカルユーザーインターフェイスまたはWebブラウザーでシステムと技術の実施例と対話できるユーザーのコンピューター)、またはそのようなバックエンドコンポーネント、ミドルウェアコンポーネント、またはフロントエンドコンポーネントを含む任意の組み合わせに実施してもよく、システムのコンポーネントは、任意の形式または媒体のデジタルデータ通信(通信ネットワークなど)を介して相互に接続してもよい。通信ネットワークの例としては、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、インターネット、ブロックチェーンネットワークが挙げられる。
コンピューターシステムは、クライアント及びサーバーを含んでもよい。クライアントとサーバーは、一般的に互いに離れており、通常は通信ネットワークを介して対話する。対応するコンピューター上で、互いにクライアント/サーバー関係を持つコンピュータープログラムを実行することによりクライアントとサーバーの関係を生成する。
なお、上記に示される様々な形態のプロセスを使用してソートし、ステップを追加し、削除できる。例えば、本願に記載される各ステップは、本願に開示される技術的解決手段の所望の結果を達成できる限り、並列、順次、または異なる順序で実行されてもよく、ここでは本文に限定されない。
上記の具体的な実施例は、本願の特許範囲を限定するものではない。当業者は、設計要件及び他の要因に応じて、様々な修正、組み合わせ、サブ組み合わせ、及び置換を行うことができると理解すべきである。本願の精神及び原則を逸脱せずに行われる補正、均等などな置換、改良などはすべて本願の特許範囲に含まれるべきである。

Claims (14)

  1. コンピューターにより実行されるテキストワードセグメンテーションの方法であって、
    分割対象となるテキストを少なくとも2層の文字セグメントの組み合わせに区分して、分割対象となるテキスト及び文字セグメントをノードとするツリー構造を生成するステップであって、いずれかの層の文字セグメントは、上位層の文字セグメントを分割して得たサブ文字セグメント、および/または、下位層の文字セグメントを得るように分割される親文字セグメントであり、各層の文字セグメントの組み合わせにおける文字セグメントは、文字セグメント間に重複がないようにスプライスすることにより分割対象となるテキストを得られる、ステップと、
    前記少なくとも2層の文字セグメントの組み合わせから、文字セグメントの長さがターゲット単語粒度に従った文字セグメントの組み合わせを、前記分割対象となるテキストを分割した分割語句の組み合わせとして決定するステップとを含む動作をプロセッサが実行する
    ことを特徴とする方法。
  2. 前記分割対象となるテキストを少なくとも2層の文字セグメントの組み合わせに区分して、分割対象となるテキスト及び文字セグメントをノードとするツリー構造を生成するステップは、
    上位層の文字セグメントの組み合わせに属する上位層の文字セグメントから、少なくとも1種の長さの候補文字セグメントを抽出することと、
    抽出された候補文字セグメントを組み合わせ、候補文字セグメントの組み合わせを取得することと、
    前記候補文字セグメント間の重複関係および前記候補文字セグメントの履歴使用情報に従って、前記候補文字セグメントの組み合わせから、少なくとも1つの現在層文字セグメントを含む現在層文字セグメントの組み合わせを決定することと、を含むことを特徴とする請求項1に記載の方法。
  3. 前記の前記候補文字セグメント間の重複関係および前記候補文字セグメントの履歴使用情報に従って前記候補文字セグメントの組み合わせから現在層文字セグメントの組み合わせを決定することは、
    前記候補文字セグメントの組み合わせから重複がある候補文字セグメントの組み合わせをフィルタリングし、ターゲット文字セグメントの組み合わせを取得することと、
    前記ターゲット文字セグメントの組み合わせに含まれた前記候補文字セグメントの数と前記候補文字セグメントの履歴使用情報に従って、前記ターゲット文字セグメントの組み合わせから前記現在層文字セグメントの組み合わせを決定することと、を含むことを特徴とする請求項2に記載の方法。
  4. 前記の前記ターゲット文字セグメントの組み合わせに含まれた前記候補文字セグメントの数と前記候補文字セグメントの履歴使用情報に従って前記ターゲット文字セグメントの組み合わせから前記現在層文字セグメントの組み合わせを決定することは、
    前記候補文字セグメントの履歴隣接文字情報に従って前記候補文字セグメントの情報エントロピーを計算することと、
    計算された情報エントロピーに従って前記ターゲット文字セグメントの組み合わせの重みを決定することと、
    前記ターゲット文字セグメントの組み合わせに含まれた前記候補文字セグメントの数と前記ターゲット文字セグメントの組み合わせの重みに従って、前記ターゲット文字セグメントの組み合わせから前記現在層文字セグメントの組み合わせを決定することと、を含むことを特徴とする請求項3に記載の方法。
  5. 前記の前記少なくとも2層の文字セグメントの組み合わせから、文字セグメントの長さがターゲット単語粒度に従った文字セグメントの組み合わせを、前記分割対象となるテキストを分割した分割語句の組み合わせとして決定するステップは、
    前記文字セグメントの組み合わせにおける親文字セグメントの履歴使用情報に従って、前記親文字セグメントの重みを決定することと、
    前記親文字セグメントに関連付けられたサブ文字セグメントの履歴使用情報に従って、前記サブ文字セグメントの総合重みを決定することと、
    前記親文字セグメントの重みを前記サブ文字セグメントの総合重みと比較し、前記親文字セグメントの重みが前記サブ文字セグメントの総合重みよりも大きい場合、前記親文字セグメントが属するブランチのトラバースを終了し、前記親文字セグメントに関連付けられたサブ文字セグメントをターゲット分割セグメントとすることと、
    前記ターゲット分割セグメントを組み合わせ、前記ターゲット分割セグメントの組み合わせから、文字セグメントの長さがターゲット単語粒度に従った文字セグメントの組み合わせを、前記分割対象となるテキストを分割した分割語句の組み合わせとして決定することと、を含むことを特徴とする請求項1に記載の方法。
  6. 前記の前記分割対象となるテキストを分割した後、前記動作は、
    分割によって取得されたターゲット分割語句を、既存のワードセグメンテーションロジックに基づいて前記分割対象となるテキストを分割することによって取得された既存の分割語句と比較することと、
    比較結果に従って、前記ターゲット分割語句からマイニング対象となる語句を決定することと、をさらに含むことを特徴とする請求項1に記載の方法。
  7. テキストワードセグメンテーション装置であって、
    分割対象となるテキストを少なくとも2層の文字セグメントの組み合わせに区分して、分割対象となるテキスト及び文字セグメントをノードとするツリー構造を生成する処理をプロセッサに実行させるように構成されるテキスト区分モジュールであって、いずれかの層の文字セグメントは、上位層の文字セグメントを分割して得たサブ文字セグメント、および/または、下位層の文字セグメントを得るように分割される親文字セグメントであり、各層の文字セグメントの組み合わせにおける文字セグメントは、文字セグメント間に重複がないようにスプライスすることにより分割対象となるテキストを得られる、モジュールと、
    前記少なくとも2層の文字セグメントの組み合わせから、文字セグメントの長さがターゲット単語粒度に従った文字セグメントの組み合わせを、前記分割対象となるテキストを分割した分割語句の組み合わせとして決定する処理をプロセッサに実行させるように構成されるテキスト分割モジュールと、を含
    ことを特徴とする装置。
  8. 前記テキスト分割モジュールは、
    上位層の文字セグメントの組み合わせに属する上位層の文字セグメントから少なくとも1種の長さの候補文字セグメントを抽出する処理をプロセッサに実行させるように構成されるセグメント抽出ユニットと、
    抽出された候補文字セグメントを組み合わせ、候補文字セグメントの組み合わせを取得する処理をプロセッサに実行させるように構成されるセグメント組み合わせユニットと、
    前記候補文字セグメント間の重複関係および前記候補文字セグメントの履歴使用情報に従って、前記候補文字セグメントの組み合わせから、少なくとも1つの現在層文字セグメントを含む現在層文字セグメントの組み合わせを決定する処理をプロセッサに実行させるように構成される組み合わせ決定ユニットと、を含むことを特徴とする請求項に記載の装置。
  9. 前記組み合わせ決定ユニットは、
    前記候補文字セグメントの組み合わせから重複がある候補文字セグメントの組み合わせをフィルタリングし、ターゲット文字セグメントの組み合わせを取得する処理をプロセッサに実行させるように構成される組み合わせフィルタリングサブユニットと、
    前記ターゲット文字セグメントの組み合わせに含まれた前記候補文字セグメントの数と前記候補文字セグメントの履歴使用情報に従って、前記ターゲット文字セグメントの組み合わせから前記現在層文字セグメントの組み合わせを決定する処理をプロセッサに実行させるように構成される組み合わせ決定サブユニットと、を含むことを特徴とする請求項に記載の装置。
  10. 前記組み合わせ決定サブユニットは、
    前記候補文字セグメントの履歴隣接文字情報に従って、前記候補文字セグメントの情報エントロピーを計算することと、
    計算された情報エントロピーに従って前記ターゲット文字セグメントの組み合わせの重みを決定することと、
    前記ターゲット文字セグメントの組み合わせに含まれた前記候補文字セグメントの数と前記ターゲット文字セグメントの組み合わせの重みに従って、前記ターゲット文字セグメントの組み合わせから前記現在層文字セグメントの組み合わせを決定することと、
    を含む処理をプロセッサに実行させるように構成されることを特徴とする請求項に記載の装置。
  11. 前記テキスト分割モジュールは、
    分割セグメント決定ユニットであって、
    前記文字セグメントの組み合わせにおける親文字セグメントの履歴使用情報に従って、前記親文字セグメントの重みを決定する処理をプロセッサに実行させるように構成される第1の重みサブユニットと、
    前記親文字セグメントに関連付けられたサブ文字セグメントの履歴使用情報に従って、前記サブ文字セグメントの総合重みを決定する処理をプロセッサに実行させるように構成される第2の重みサブユニットと、
    前記親文字セグメントの重みを前記サブ文字セグメントの総合重みと比較し、前記親文字セグメントの重みが前記サブ文字セグメントの総合重みよりも大きい場合、前記親文字セグメントが属するブランチのトラバースを終了し、前記親文字セグメントに関連付けられたサブ文字セグメントをターゲット分割セグメントとする処理をプロセッサに実行させるように構成される分割セグメント決定サブユニットと、を含む分割セグメント決定ユニットと、
    前記ターゲット分割セグメントを組み合わせ、前記ターゲット分割セグメントの組み合わせから、文字セグメントの長さがターゲット単語粒度に従った文字セグメントの組み合わせを、前記分割対象となるテキストを分割した分割語句の組み合わせとして決定する処理をプロセッサに実行させるように構成されるテキスト分割ユニットと、を含むことを特徴とする請求項に記載の装置。
  12. 電子デバイスであって、
    少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサと通信可能に接続されたメモリと、を備え、
    前記メモリは、前記少なくとも1つのプロセッサによって実行可能な命令を記憶し、前記少なくとも1つのプロセッサが請求項1~のいずれか1項に記載の方法を実行できるように、前記命令が前記少なくとも1つのプロセッサに実行されることを特徴とする電子デバイス。
  13. コンピューター命令を記憶する非一時的なコンピューター読み取り可能な記憶媒体であって、前記コンピューター命令は、前記コンピューターに請求項1~のいずれか1項に記載の方法を実行させることを特徴とする記憶媒体。
  14. コンピュータープログラムであって、前記コンピュータープログラムがプロセッサによって実行されるとき、前記コンピューターに請求項1~のいずれか1項に記載の方法を実行させることを特徴とするコンピュータープログラム。
JP2020159812A 2020-01-14 2020-09-24 テキストワードセグメンテーションの方法、装置、デバイスおよび媒体 Active JP7197542B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010037943.7 2020-01-14
CN202010037943.7A CN111274353B (zh) 2020-01-14 2020-01-14 文本切词方法、装置、设备和介质

Publications (2)

Publication Number Publication Date
JP2021111342A JP2021111342A (ja) 2021-08-02
JP7197542B2 true JP7197542B2 (ja) 2022-12-27

Family

ID=71001864

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020159812A Active JP7197542B2 (ja) 2020-01-14 2020-09-24 テキストワードセグメンテーションの方法、装置、デバイスおよび媒体

Country Status (3)

Country Link
US (1) US11468236B2 (ja)
JP (1) JP7197542B2 (ja)
CN (1) CN111274353B (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112559711A (zh) * 2020-12-23 2021-03-26 作业帮教育科技(北京)有限公司 一种同义文本提示方法、装置及电子设备
CN117690153B (zh) * 2024-02-04 2024-04-05 中国电子信息产业集团有限公司第六研究所 一种基于确定型有限自动机的文本检测方法、装置及设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007512609A (ja) 2003-11-21 2007-05-17 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 文書構造化のためのテキストセグメンテーション及びトピック注釈付け
JP2011180941A (ja) 2010-03-03 2011-09-15 National Institute Of Information & Communication Technology 句テーブル生成器及びそのためのコンピュータプログラム
JP2013545160A (ja) 2010-09-26 2013-12-19 アリババ・グループ・ホールディング・リミテッド 指定特性値を使用するターゲット単語の認識
JP2016031572A (ja) 2014-07-28 2016-03-07 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 用語を適切な粒度で分割する方法、並びに、用語を適切な粒度で分割するためのコンピュータ及びそのコンピュータ・プログラム
US20180365209A1 (en) 2017-06-19 2018-12-20 Beijing Baidu Netcom Science And Technology Co., Ltd. Artificial intelligence based method and apparatus for segmenting sentence
US20190018836A1 (en) 2016-04-12 2019-01-17 Huawei Technologies Co., Ltd. Word Segmentation method and System for Language Text

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101477518A (zh) * 2009-01-09 2009-07-08 昆明理工大学 基于条件随机场的旅游领域命名实体识别方法
CN102479191B (zh) * 2010-11-22 2014-03-26 阿里巴巴集团控股有限公司 提供多粒度分词结果的方法及其装置
US10558749B2 (en) * 2017-01-30 2020-02-11 International Business Machines Corporation Text prediction using captured image from an image capture device
CN107145483B (zh) * 2017-04-24 2018-09-04 北京邮电大学 一种基于嵌入式表示的自适应中文分词方法
CN109918658B (zh) * 2019-02-28 2023-04-07 云孚科技(北京)有限公司 一种从文本中获取目标词汇的方法及系统
US20210110586A1 (en) * 2019-10-11 2021-04-15 Xerox Corporation Mixed raster content (mrc) to control color changes

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007512609A (ja) 2003-11-21 2007-05-17 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 文書構造化のためのテキストセグメンテーション及びトピック注釈付け
JP2011180941A (ja) 2010-03-03 2011-09-15 National Institute Of Information & Communication Technology 句テーブル生成器及びそのためのコンピュータプログラム
JP2013545160A (ja) 2010-09-26 2013-12-19 アリババ・グループ・ホールディング・リミテッド 指定特性値を使用するターゲット単語の認識
JP2016031572A (ja) 2014-07-28 2016-03-07 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 用語を適切な粒度で分割する方法、並びに、用語を適切な粒度で分割するためのコンピュータ及びそのコンピュータ・プログラム
US20190018836A1 (en) 2016-04-12 2019-01-17 Huawei Technologies Co., Ltd. Word Segmentation method and System for Language Text
US20180365209A1 (en) 2017-06-19 2018-12-20 Beijing Baidu Netcom Science And Technology Co., Ltd. Artificial intelligence based method and apparatus for segmenting sentence

Also Published As

Publication number Publication date
CN111274353B (zh) 2023-08-01
CN111274353A (zh) 2020-06-12
JP2021111342A (ja) 2021-08-02
US20210216710A1 (en) 2021-07-15
US11468236B2 (en) 2022-10-11

Similar Documents

Publication Publication Date Title
JP7223785B2 (ja) 時系列ナレッジグラフ生成方法、装置、デバイス及び媒体
US20210209416A1 (en) Method and apparatus for generating event theme
CN107301170B (zh) 基于人工智能的切分语句的方法和装置
CN112507715A (zh) 确定实体之间关联关系的方法、装置、设备和存储介质
EP3933657A1 (en) Conference minutes generation method and apparatus, electronic device, and computer-readable storage medium
JP7242719B2 (ja) Spoの抽出方法、装置、電子機器及び記憶媒体
CN111783468B (zh) 文本处理方法、装置、设备和介质
JP2022031804A (ja) イベント抽出方法、装置、電子機器及び記憶媒体
US20220092252A1 (en) Method for generating summary, electronic device and storage medium thereof
US10528664B2 (en) Preserving and processing ambiguity in natural language
CN112541076B (zh) 目标领域的扩充语料生成方法、装置和电子设备
US20220129448A1 (en) Intelligent dialogue method and apparatus, and storage medium
JP2021099890A (ja) 因果関係の判別方法、装置、電子機器及び記憶媒体
JP2022040026A (ja) エンティティリンキング方法、装置、電子デバイス及び記憶媒体
JP7197542B2 (ja) テキストワードセグメンテーションの方法、装置、デバイスおよび媒体
CN111666372B (zh) 解析查询词query的方法、装置、电子设备和可读存储介质
CN111984774A (zh) 搜索方法、装置、设备以及存储介质
JP2022088540A (ja) ユーザ興味画像の生成方法、装置、電子機器及び記憶媒体
CN112560425B (zh) 模板生成方法、装置、电子设备及存储介质
CN111310481B (zh) 语音翻译方法、装置、计算机设备和存储介质
CN110705285B (zh) 一种政务文本主题词库构建方法、装置、服务器及可读存储介质
US20220335070A1 (en) Method and apparatus for querying writing material, and storage medium
US11893977B2 (en) Method for recognizing Chinese-English mixed speech, electronic device, and storage medium
CN111930916B (zh) 对话生成方法、装置、电子设备和存储介质
CN111832313B (zh) 文本中情感搭配集合的生成方法、装置、设备和介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210107

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20210531

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20210611

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220329

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220629

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221115

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221215

R150 Certificate of patent or registration of utility model

Ref document number: 7197542

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150