JP7197542B2 - テキストワードセグメンテーションの方法、装置、デバイスおよび媒体 - Google Patents
テキストワードセグメンテーションの方法、装置、デバイスおよび媒体 Download PDFInfo
- Publication number
- JP7197542B2 JP7197542B2 JP2020159812A JP2020159812A JP7197542B2 JP 7197542 B2 JP7197542 B2 JP 7197542B2 JP 2020159812 A JP2020159812 A JP 2020159812A JP 2020159812 A JP2020159812 A JP 2020159812A JP 7197542 B2 JP7197542 B2 JP 7197542B2
- Authority
- JP
- Japan
- Prior art keywords
- character
- segment
- segments
- combination
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
第1の実施例
ターゲット単語粒度に従って、前記少なくとも2層の文字セグメントの組み合わせから一組み合わせを決定し、該組み合わせにおける各文字セグメントに従って、前記分割対象となるテキストを分割することを含む。
第2の実施例
第3の実施例
第4の実施例
は、文字セグメントが与えられた時に隣接前文cの出現頻度を指し、
は文字セグメントの出現合計頻度を指す。
は文字セグメントが与えられた時に隣接後文cの出現頻度を指し、
は文字セグメントの出現頻度を指す。
実際の適用段階
log(query pv)、
ただし、query pvは各文字セグメントが1つのユーザー検索テキストとしての出現の頻度である。
第5の実施例
第6の実施例
Claims (14)
- コンピューターにより実行されるテキストワードセグメンテーションの方法であって、
分割対象となるテキストを少なくとも2層の文字セグメントの組み合わせに区分して、分割対象となるテキスト及び文字セグメントをノードとするツリー構造を生成するステップであって、いずれかの層の文字セグメントは、上位層の文字セグメントを分割して得たサブ文字セグメント、および/または、下位層の文字セグメントを得るように分割される親文字セグメントであり、各層の文字セグメントの組み合わせにおける文字セグメントは、文字セグメント間に重複がないようにスプライスすることにより分割対象となるテキストを得られる、ステップと、
前記少なくとも2層の文字セグメントの組み合わせから、文字セグメントの長さがターゲット単語粒度に従った文字セグメントの組み合わせを、前記分割対象となるテキストを分割した分割語句の組み合わせとして決定するステップとを含む動作をプロセッサが実行する、
ことを特徴とする方法。 - 前記分割対象となるテキストを少なくとも2層の文字セグメントの組み合わせに区分して、分割対象となるテキスト及び文字セグメントをノードとするツリー構造を生成するステップは、
上位層の文字セグメントの組み合わせに属する上位層の文字セグメントから、少なくとも1種の長さの候補文字セグメントを抽出することと、
抽出された候補文字セグメントを組み合わせ、候補文字セグメントの組み合わせを取得することと、
前記候補文字セグメント間の重複関係および前記候補文字セグメントの履歴使用情報に従って、前記候補文字セグメントの組み合わせから、少なくとも1つの現在層文字セグメントを含む現在層文字セグメントの組み合わせを決定することと、を含むことを特徴とする請求項1に記載の方法。 - 前記の前記候補文字セグメント間の重複関係および前記候補文字セグメントの履歴使用情報に従って前記候補文字セグメントの組み合わせから現在層文字セグメントの組み合わせを決定することは、
前記候補文字セグメントの組み合わせから重複がある候補文字セグメントの組み合わせをフィルタリングし、ターゲット文字セグメントの組み合わせを取得することと、
前記ターゲット文字セグメントの組み合わせに含まれた前記候補文字セグメントの数と前記候補文字セグメントの履歴使用情報に従って、前記ターゲット文字セグメントの組み合わせから前記現在層文字セグメントの組み合わせを決定することと、を含むことを特徴とする請求項2に記載の方法。 - 前記の前記ターゲット文字セグメントの組み合わせに含まれた前記候補文字セグメントの数と前記候補文字セグメントの履歴使用情報に従って前記ターゲット文字セグメントの組み合わせから前記現在層文字セグメントの組み合わせを決定することは、
前記候補文字セグメントの履歴隣接文字情報に従って前記候補文字セグメントの情報エントロピーを計算することと、
計算された情報エントロピーに従って前記ターゲット文字セグメントの組み合わせの重みを決定することと、
前記ターゲット文字セグメントの組み合わせに含まれた前記候補文字セグメントの数と前記ターゲット文字セグメントの組み合わせの重みに従って、前記ターゲット文字セグメントの組み合わせから前記現在層文字セグメントの組み合わせを決定することと、を含むことを特徴とする請求項3に記載の方法。 - 前記の前記少なくとも2層の文字セグメントの組み合わせから、文字セグメントの長さがターゲット単語粒度に従った文字セグメントの組み合わせを、前記分割対象となるテキストを分割した分割語句の組み合わせとして決定するステップは、
前記文字セグメントの組み合わせにおける親文字セグメントの履歴使用情報に従って、前記親文字セグメントの重みを決定することと、
前記親文字セグメントに関連付けられたサブ文字セグメントの履歴使用情報に従って、前記サブ文字セグメントの総合重みを決定することと、
前記親文字セグメントの重みを前記サブ文字セグメントの総合重みと比較し、前記親文字セグメントの重みが前記サブ文字セグメントの総合重みよりも大きい場合、前記親文字セグメントが属するブランチのトラバースを終了し、前記親文字セグメントに関連付けられたサブ文字セグメントをターゲット分割セグメントとすることと、
前記ターゲット分割セグメントを組み合わせ、前記ターゲット分割セグメントの組み合わせから、文字セグメントの長さがターゲット単語粒度に従った文字セグメントの組み合わせを、前記分割対象となるテキストを分割した分割語句の組み合わせとして決定することと、を含むことを特徴とする請求項1に記載の方法。 - 前記の前記分割対象となるテキストを分割した後、前記動作は、
分割によって取得されたターゲット分割語句を、既存のワードセグメンテーションロジックに基づいて前記分割対象となるテキストを分割することによって取得された既存の分割語句と比較することと、
比較結果に従って、前記ターゲット分割語句からマイニング対象となる語句を決定することと、をさらに含むことを特徴とする請求項1に記載の方法。 - テキストワードセグメンテーション装置であって、
分割対象となるテキストを少なくとも2層の文字セグメントの組み合わせに区分して、分割対象となるテキスト及び文字セグメントをノードとするツリー構造を生成する処理をプロセッサに実行させるように構成されるテキスト区分モジュールであって、いずれかの層の文字セグメントは、上位層の文字セグメントを分割して得たサブ文字セグメント、および/または、下位層の文字セグメントを得るように分割される親文字セグメントであり、各層の文字セグメントの組み合わせにおける文字セグメントは、文字セグメント間に重複がないようにスプライスすることにより分割対象となるテキストを得られる、モジュールと、
前記少なくとも2層の文字セグメントの組み合わせから、文字セグメントの長さがターゲット単語粒度に従った文字セグメントの組み合わせを、前記分割対象となるテキストを分割した分割語句の組み合わせとして決定する処理をプロセッサに実行させるように構成されるテキスト分割モジュールと、を含む、
ことを特徴とする装置。 - 前記テキスト分割モジュールは、
上位層の文字セグメントの組み合わせに属する上位層の文字セグメントから少なくとも1種の長さの候補文字セグメントを抽出する処理をプロセッサに実行させるように構成されるセグメント抽出ユニットと、
抽出された候補文字セグメントを組み合わせ、候補文字セグメントの組み合わせを取得する処理をプロセッサに実行させるように構成されるセグメント組み合わせユニットと、
前記候補文字セグメント間の重複関係および前記候補文字セグメントの履歴使用情報に従って、前記候補文字セグメントの組み合わせから、少なくとも1つの現在層文字セグメントを含む現在層文字セグメントの組み合わせを決定する処理をプロセッサに実行させるように構成される組み合わせ決定ユニットと、を含むことを特徴とする請求項7に記載の装置。 - 前記組み合わせ決定ユニットは、
前記候補文字セグメントの組み合わせから重複がある候補文字セグメントの組み合わせをフィルタリングし、ターゲット文字セグメントの組み合わせを取得する処理をプロセッサに実行させるように構成される組み合わせフィルタリングサブユニットと、
前記ターゲット文字セグメントの組み合わせに含まれた前記候補文字セグメントの数と前記候補文字セグメントの履歴使用情報に従って、前記ターゲット文字セグメントの組み合わせから前記現在層文字セグメントの組み合わせを決定する処理をプロセッサに実行させるように構成される組み合わせ決定サブユニットと、を含むことを特徴とする請求項8に記載の装置。 - 前記組み合わせ決定サブユニットは、
前記候補文字セグメントの履歴隣接文字情報に従って、前記候補文字セグメントの情報エントロピーを計算することと、
計算された情報エントロピーに従って前記ターゲット文字セグメントの組み合わせの重みを決定することと、
前記ターゲット文字セグメントの組み合わせに含まれた前記候補文字セグメントの数と前記ターゲット文字セグメントの組み合わせの重みに従って、前記ターゲット文字セグメントの組み合わせから前記現在層文字セグメントの組み合わせを決定することと、
を含む処理をプロセッサに実行させるように構成されることを特徴とする請求項9に記載の装置。 - 前記テキスト分割モジュールは、
分割セグメント決定ユニットであって、
前記文字セグメントの組み合わせにおける親文字セグメントの履歴使用情報に従って、前記親文字セグメントの重みを決定する処理をプロセッサに実行させるように構成される第1の重みサブユニットと、
前記親文字セグメントに関連付けられたサブ文字セグメントの履歴使用情報に従って、前記サブ文字セグメントの総合重みを決定する処理をプロセッサに実行させるように構成される第2の重みサブユニットと、
前記親文字セグメントの重みを前記サブ文字セグメントの総合重みと比較し、前記親文字セグメントの重みが前記サブ文字セグメントの総合重みよりも大きい場合、前記親文字セグメントが属するブランチのトラバースを終了し、前記親文字セグメントに関連付けられたサブ文字セグメントをターゲット分割セグメントとする処理をプロセッサに実行させるように構成される分割セグメント決定サブユニットと、を含む分割セグメント決定ユニットと、
前記ターゲット分割セグメントを組み合わせ、前記ターゲット分割セグメントの組み合わせから、文字セグメントの長さがターゲット単語粒度に従った文字セグメントの組み合わせを、前記分割対象となるテキストを分割した分割語句の組み合わせとして決定する処理をプロセッサに実行させるように構成されるテキスト分割ユニットと、を含むことを特徴とする請求項7に記載の装置。 - 電子デバイスであって、
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサと通信可能に接続されたメモリと、を備え、
前記メモリは、前記少なくとも1つのプロセッサによって実行可能な命令を記憶し、前記少なくとも1つのプロセッサが請求項1~6のいずれか1項に記載の方法を実行できるように、前記命令が前記少なくとも1つのプロセッサに実行されることを特徴とする電子デバイス。 - コンピューター命令を記憶する非一時的なコンピューター読み取り可能な記憶媒体であって、前記コンピューター命令は、前記コンピューターに請求項1~6のいずれか1項に記載の方法を実行させることを特徴とする記憶媒体。
- コンピュータープログラムであって、前記コンピュータープログラムがプロセッサによって実行されるとき、前記コンピューターに請求項1~6のいずれか1項に記載の方法を実行させることを特徴とするコンピュータープログラム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010037943.7 | 2020-01-14 | ||
CN202010037943.7A CN111274353B (zh) | 2020-01-14 | 2020-01-14 | 文本切词方法、装置、设备和介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021111342A JP2021111342A (ja) | 2021-08-02 |
JP7197542B2 true JP7197542B2 (ja) | 2022-12-27 |
Family
ID=71001864
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020159812A Active JP7197542B2 (ja) | 2020-01-14 | 2020-09-24 | テキストワードセグメンテーションの方法、装置、デバイスおよび媒体 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11468236B2 (ja) |
JP (1) | JP7197542B2 (ja) |
CN (1) | CN111274353B (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112559711A (zh) * | 2020-12-23 | 2021-03-26 | 作业帮教育科技(北京)有限公司 | 一种同义文本提示方法、装置及电子设备 |
CN117690153B (zh) * | 2024-02-04 | 2024-04-05 | 中国电子信息产业集团有限公司第六研究所 | 一种基于确定型有限自动机的文本检测方法、装置及设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007512609A (ja) | 2003-11-21 | 2007-05-17 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 文書構造化のためのテキストセグメンテーション及びトピック注釈付け |
JP2011180941A (ja) | 2010-03-03 | 2011-09-15 | National Institute Of Information & Communication Technology | 句テーブル生成器及びそのためのコンピュータプログラム |
JP2013545160A (ja) | 2010-09-26 | 2013-12-19 | アリババ・グループ・ホールディング・リミテッド | 指定特性値を使用するターゲット単語の認識 |
JP2016031572A (ja) | 2014-07-28 | 2016-03-07 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 用語を適切な粒度で分割する方法、並びに、用語を適切な粒度で分割するためのコンピュータ及びそのコンピュータ・プログラム |
US20180365209A1 (en) | 2017-06-19 | 2018-12-20 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Artificial intelligence based method and apparatus for segmenting sentence |
US20190018836A1 (en) | 2016-04-12 | 2019-01-17 | Huawei Technologies Co., Ltd. | Word Segmentation method and System for Language Text |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101477518A (zh) * | 2009-01-09 | 2009-07-08 | 昆明理工大学 | 基于条件随机场的旅游领域命名实体识别方法 |
CN102479191B (zh) * | 2010-11-22 | 2014-03-26 | 阿里巴巴集团控股有限公司 | 提供多粒度分词结果的方法及其装置 |
US10558749B2 (en) * | 2017-01-30 | 2020-02-11 | International Business Machines Corporation | Text prediction using captured image from an image capture device |
CN107145483B (zh) * | 2017-04-24 | 2018-09-04 | 北京邮电大学 | 一种基于嵌入式表示的自适应中文分词方法 |
CN109918658B (zh) * | 2019-02-28 | 2023-04-07 | 云孚科技(北京)有限公司 | 一种从文本中获取目标词汇的方法及系统 |
US20210110586A1 (en) * | 2019-10-11 | 2021-04-15 | Xerox Corporation | Mixed raster content (mrc) to control color changes |
-
2020
- 2020-01-14 CN CN202010037943.7A patent/CN111274353B/zh active Active
- 2020-09-14 US US17/020,166 patent/US11468236B2/en active Active
- 2020-09-24 JP JP2020159812A patent/JP7197542B2/ja active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007512609A (ja) | 2003-11-21 | 2007-05-17 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 文書構造化のためのテキストセグメンテーション及びトピック注釈付け |
JP2011180941A (ja) | 2010-03-03 | 2011-09-15 | National Institute Of Information & Communication Technology | 句テーブル生成器及びそのためのコンピュータプログラム |
JP2013545160A (ja) | 2010-09-26 | 2013-12-19 | アリババ・グループ・ホールディング・リミテッド | 指定特性値を使用するターゲット単語の認識 |
JP2016031572A (ja) | 2014-07-28 | 2016-03-07 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 用語を適切な粒度で分割する方法、並びに、用語を適切な粒度で分割するためのコンピュータ及びそのコンピュータ・プログラム |
US20190018836A1 (en) | 2016-04-12 | 2019-01-17 | Huawei Technologies Co., Ltd. | Word Segmentation method and System for Language Text |
US20180365209A1 (en) | 2017-06-19 | 2018-12-20 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Artificial intelligence based method and apparatus for segmenting sentence |
Also Published As
Publication number | Publication date |
---|---|
CN111274353B (zh) | 2023-08-01 |
CN111274353A (zh) | 2020-06-12 |
JP2021111342A (ja) | 2021-08-02 |
US20210216710A1 (en) | 2021-07-15 |
US11468236B2 (en) | 2022-10-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7223785B2 (ja) | 時系列ナレッジグラフ生成方法、装置、デバイス及び媒体 | |
US20210209416A1 (en) | Method and apparatus for generating event theme | |
CN107301170B (zh) | 基于人工智能的切分语句的方法和装置 | |
CN112507715A (zh) | 确定实体之间关联关系的方法、装置、设备和存储介质 | |
EP3933657A1 (en) | Conference minutes generation method and apparatus, electronic device, and computer-readable storage medium | |
JP7242719B2 (ja) | Spoの抽出方法、装置、電子機器及び記憶媒体 | |
CN111783468B (zh) | 文本处理方法、装置、设备和介质 | |
JP2022031804A (ja) | イベント抽出方法、装置、電子機器及び記憶媒体 | |
US20220092252A1 (en) | Method for generating summary, electronic device and storage medium thereof | |
US10528664B2 (en) | Preserving and processing ambiguity in natural language | |
CN112541076B (zh) | 目标领域的扩充语料生成方法、装置和电子设备 | |
US20220129448A1 (en) | Intelligent dialogue method and apparatus, and storage medium | |
JP2021099890A (ja) | 因果関係の判別方法、装置、電子機器及び記憶媒体 | |
JP2022040026A (ja) | エンティティリンキング方法、装置、電子デバイス及び記憶媒体 | |
JP7197542B2 (ja) | テキストワードセグメンテーションの方法、装置、デバイスおよび媒体 | |
CN111666372B (zh) | 解析查询词query的方法、装置、电子设备和可读存储介质 | |
CN111984774A (zh) | 搜索方法、装置、设备以及存储介质 | |
JP2022088540A (ja) | ユーザ興味画像の生成方法、装置、電子機器及び記憶媒体 | |
CN112560425B (zh) | 模板生成方法、装置、电子设备及存储介质 | |
CN111310481B (zh) | 语音翻译方法、装置、计算机设备和存储介质 | |
CN110705285B (zh) | 一种政务文本主题词库构建方法、装置、服务器及可读存储介质 | |
US20220335070A1 (en) | Method and apparatus for querying writing material, and storage medium | |
US11893977B2 (en) | Method for recognizing Chinese-English mixed speech, electronic device, and storage medium | |
CN111930916B (zh) | 对话生成方法、装置、电子设备和存储介质 | |
CN111832313B (zh) | 文本中情感搭配集合的生成方法、装置、设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210107 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20210531 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20210611 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220329 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220629 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20221115 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20221215 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7197542 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |