JP2018536920A - テキスト情報処理方法およびデバイス - Google Patents
テキスト情報処理方法およびデバイス Download PDFInfo
- Publication number
- JP2018536920A JP2018536920A JP2018518610A JP2018518610A JP2018536920A JP 2018536920 A JP2018536920 A JP 2018536920A JP 2018518610 A JP2018518610 A JP 2018518610A JP 2018518610 A JP2018518610 A JP 2018518610A JP 2018536920 A JP2018536920 A JP 2018536920A
- Authority
- JP
- Japan
- Prior art keywords
- word
- training corpus
- candidate new
- probability
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 39
- 238000003672 processing method Methods 0.000 title claims abstract description 19
- 238000012549 training Methods 0.000 claims abstract description 204
- 238000000034 method Methods 0.000 claims abstract description 37
- 230000006870 function Effects 0.000 claims description 22
- 238000000638 solvent extraction Methods 0.000 claims 2
- 238000012545 processing Methods 0.000 abstract description 14
- 230000003796 beauty Effects 0.000 description 7
- 230000011218 segmentation Effects 0.000 description 7
- 238000001514 detection method Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000036651 mood Effects 0.000 description 4
- 238000007726 management method Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 230000008092 positive effect Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 206010028916 Neologism Diseases 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000001816 cooling Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000007599 discharging Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000010897 surface acoustic wave method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
Description
テキスト情報に従って訓練コーパスを決定するステップと、
訓練コーパスを単語および単語列(string)に分割するステップと、
各単語および各単語列が訓練コーパスに現れる確率についての統計を別々に集めて、各単語の独立した確率および各単語列の同時確率(joint probability)を取得するステップと、
独立した確率および同時確率に従って単語列内で選択を実行し、選択された単語列を候補新造語として使用するステップと、
候補新造語が予め設定された辞書内になく、候補新造語に対応する同時確率が予め設定された閾値よりも大きいときに候補新造語を新造語と決定するステップとを含む、方法を提供する。
テキスト情報に従って訓練コーパスを決定するように構成された取得ユニットと、
訓練コーパスを単語および単語列に分割するように構成された分割ユニットと、
各単語および各単語列が訓練コーパスに現れる確率についての統計を別々に集めて、各単語の独立した確率および各単語列の同時確率を取得するように構成された統計収集ユニットと、
独立した確率および同時確率に従って単語列内で選択を実行し、選択された単語列を候補新造語として使用するように構成された選択ユニットと、
候補新造語が予め設定された辞書内になく、候補新造語に対応する同時確率が予め設定された閾値よりも大きいときに候補新造語を新造語と決定するように構成された決定ユニットとを含む、装置をさらに提供する。
この実施形態は、テキスト情報処理方法の観点で説明される。テキスト情報処理方法は、サーバなどの装置によって実行され得る。
現在処理される必要がある単語列を決定して現在の単語列を取得すること、現在の単語列の同時確率および現在の単語列内のすべての単語の独立した確率を取得すること、ならびに現在の単語列の同時確率が現在の単語列内のすべての単語の独立した確率の積よりも大きいときに現在の単語列を候補新造語と決定することである可能性がある。これは、下のような式を使用することによって表される。
必要とされる繰り返しの回数を取得するステップと、各繰り返しに関して異なる訓練開始位置を保証するために、順序に応じておよび繰り返しの回数に応じて訓練コーパス内で均一に対応する訓練開始位置を生成するステップと、訓練開始位置に応じて対応する訓練終了位置を決定するステップとをさらに含み得る。
候補新造語が予め設定された辞書内になく、更新された同時確率が予め設定された閾値よりも大きいときに候補新造語を新造語と決定することである可能性がある。
実施形態1において説明された方法に従って、以下で、例を用いることによって詳細な説明をさらに与える。
現在処理される必要がある単語列を決定して現在の単語列を取得すること、現在の単語列の同時確率および現在の単語列内のすべての単語の独立した確率を取得すること、現在の単語列の同時確率が現在の単語列内のすべての単語の独立した確率の積よりも大きいときに現在の単語列を候補新造語と決定すること、ならびに候補新造語を候補新造語の集合に追加することである可能性がある。
必要とされる繰り返しの回数を取得するステップと、各繰り返しに関して異なる訓練開始位置を保証するために、順序に応じておよび繰り返しの回数に応じて訓練コーパス内で均一に対応する訓練開始位置を生成するステップと、訓練開始位置に応じて対応する訓練終了位置を決定するステップとをさらに含み得る。
上述の方法をより上手く実装するために、本出願のこの実施形態は、テキスト情報処理装置をさらに提供する。図3aに示されるように、テキスト情報処理装置は、取得ユニット301、分割ユニット302、統計収集ユニット303、選択ユニット304、および決定ユニット305を含み得る。説明は、以下の通りである。
各単語が訓練コーパスに現れる回数、各単語列が訓練コーパスに現れる回数、および訓練コーパス内の単語の総数についての統計を別々に集め、
各単語が訓練コーパスに現れる回数および単語の総数に従って各単語の確率を計算して、各単語の独立した確率を取得し、
各単語が訓練コーパスに現れる回数および単語の総数に従って各単語列の確率を計算して、各単語列の同時確率を取得するように特に構成される可能性がある。
対応して、本出願のこの実施形態は、本出願の実施形態による任意のテキスト情報処理装置を含むテキスト情報処理システムをさらに提供する。詳細に関しては、実施形態3を参照されたい。たとえば、説明は、以下のようになる可能性がある。
本出願のこの実施形態は、コンピューティング装置をさらに提供する。図4に示されるように、本出願のこの実施形態のコンピューティング装置は、例としてサーバを使用することによって示される。特に、
テキスト情報に従って訓練コーパスを決定することと、訓練コーパスを単語および単語列に分割することと、各単語および各単語列が訓練コーパスに現れる確率についての統計を別々に集めて、各単語の独立した確率および各単語列の同時確率を取得することと、独立した確率および同時確率に従って候補新造語を選択することと、候補新造語が予め設定された辞書内になく、候補新造語に対応する同時確率が予め設定された閾値よりも大きいときに候補新造語を新造語と決定することとを実施する。
302 分割ユニット
303 統計収集ユニット
304 選択ユニット
305 決定ユニット
306 更新ユニット
401 プロセッサ
402 メモリ
403 無線周波数(RF)回路
404 電源
405 入力ユニット
406 ディスプレイユニット
Claims (20)
- テキスト情報処理方法であって、
テキスト情報に従って訓練コーパスを決定するステップと、
前記訓練コーパスを単語および単語列に分割するステップと、
各単語および各単語列が前記訓練コーパスに現れる確率についての統計を別々に集めて、各単語の独立した確率および各単語列の同時確率を取得するステップと、
前記独立した確率および前記同時確率に従って前記単語列内で選択を実行し、選択された単語列を候補新造語として使用するステップと、
前記候補新造語が予め設定された辞書内になく、前記候補新造語に対応する同時確率が予め設定された閾値よりも大きいときに前記候補新造語を新造語と決定するステップと
を含む、方法。 - 各単語および各単語列が前記訓練コーパスに現れる確率についての統計を別々に集めて、各単語の独立した確率および各単語列の同時確率を取得する前記ステップが、
各単語が前記訓練コーパスに現れる回数、各単語列が前記訓練コーパスに現れる回数、および前記訓練コーパス内の単語の総数についての統計を別々に集めるステップと、
各単語が前記訓練コーパスに現れる前記回数および前記訓練コーパス内の単語の前記総数に従って前記独立した確率を計算するステップと、
各単語列が前記訓練コーパスに現れる前記回数および前記訓練コーパス内の単語の前記総数に従って前記同時確率を計算するステップと
を含む請求項1に記載の方法。 - 前記独立した確率および前記同時確率に従って前記単語列内で選択を実行し、選択された単語列を候補新造語として使用する前記ステップが、
分割によって得られた各単語列に関して、前記単語列の同時確率が前記単語列内のすべての単語の独立した確率の積よりも大きいかどうかを判定し、前記単語列の前記同時確率が前記単語列内のすべての前記単語の前記独立した確率の前記積よりも大きい場合、前記単語列を候補新造語と決定するステップを含む請求項1に記載の方法。 - 分割によって得られた各単語列が、少なくとも2つの隣接した単語を含む請求項1に記載の方法。
- 前記候補新造語に対応する前記同時確率が、前記選択された単語列の同時確率であり、
前記独立した確率および前記同時確率に従って前記単語列内で選択を実行し、選択された単語列を候補新造語として使用した後、前記方法が、
特定の規則に従って前記候補新造語に対応する前記同時確率を更新するステップをさらに含む請求項1から3のいずれか一項に記載の方法。 - 特定の規則に従って前記候補新造語に対応する前記同時確率を更新する前記ステップが、
前記訓練コーパス内の訓練開始位置から前記候補新造語の位置まで読むために必要とされる時間を推定して順方向時間を取得するステップと、
前記候補新造語の前記位置から前記訓練コーパス内の訓練終了位置まで読むために必要とされる時間を推定して逆方向時間を取得するステップと、
前記候補新造語に対応する前記同時確率を、前記順方向時間および前記逆方向時間に従って予め設定された指数減衰関数を使用することによって更新して、更新された同時確率を取得するステップと
を含む請求項5に記載の方法。 - 前記特定の規則が、エビングハウスの記憶の法則であり、前記指数減衰関数が、前記エビングハウスの記憶の法則に従って構築される請求項6に記載の方法。
- 前記訓練コーパス内の訓練開始位置から前記候補新造語の位置まで読むために必要とされる時間を推定して順方向時間を取得する前記ステップが、
前記訓練コーパス内の前記訓練開始位置と前記候補新造語の前記位置との間の距離を計算して第1の距離を取得するステップと、
前記第1の距離を予め設定された読む速度によって割って前記順方向時間を取得するステップと
を含む請求項6に記載の方法。 - 前記候補新造語の前記位置から前記訓練コーパス内の訓練終了位置まで読むために必要とされる時間を推定して逆方向時間を取得する前記ステップが、
前記候補新造語の前記位置から前記訓練コーパス内の前記訓練終了位置との間の距離を計算して第2の距離を取得するステップと、
前記第2の距離を予め設定された読む速度によって割って前記逆方向時間を取得するステップと
を含む請求項6に記載の方法。 - テキスト情報処理装置であって、
テキスト情報に従って訓練コーパスを決定するように構成された取得ユニットと、
前記訓練コーパスを単語および単語列に分割するように構成された分割ユニットと、
各単語および各単語列が前記訓練コーパスに現れる確率についての統計を別々に集めて、各単語の独立した確率および各単語列の同時確率を取得するように構成された統計収集ユニットと、
前記独立した確率および前記同時確率に従って前記単語列内で選択を実行し、選択された単語列を候補新造語として使用するように構成された選択ユニットと、
前記候補新造語が予め設定された辞書内になく、前記候補新造語に対応する同時確率が予め設定された閾値よりも大きいときに前記候補新造語を新造語と決定するように構成された決定ユニットと
を含む、装置。 - 前記統計収集ユニットが、
各単語が前記訓練コーパスに現れる回数、各単語列が前記訓練コーパスに現れる回数、および前記訓練コーパス内の単語の総数についての統計を別々に集め、
各単語が前記訓練コーパスに現れる前記回数および前記訓練コーパス内の単語の前記総数に従って前記独立した確率を計算し、
各単語列が前記訓練コーパスに現れる前記回数および前記訓練コーパス内の単語の前記総数に従って前記同時確率を計算するようにさらに構成される請求項10に記載の装置。 - 前記選択ユニットが、
分割によって得られた各単語列に関して、前記単語列の同時確率が前記単語列内のすべての単語の独立した確率の積よりも大きいかどうかを判定し、前記単語列の前記同時確率が前記単語列内のすべての前記単語の前記独立した確率の前記積よりも大きい場合、前記単語列を候補新造語と決定するようにさらに構成される請求項10に記載の装置。 - 分割によって得られた各単語列が、少なくとも2つの隣接した単語を含む請求項10に記載の装置。
- 前記候補新造語に対応する前記同時確率が、前記選択された単語列の同時確率であり、
前記装置が、更新ユニットをさらに含み、
前記更新ユニットが、特定の規則に従って前記候補新造語に対応する前記同時確率を更新するように構成される請求項10から12のいずれか一項に記載の装置。 - 前記更新ユニットが、前記訓練コーパス内の訓練開始位置から前記候補新造語の位置まで読むために必要とされる時間を推定して順方向時間を取得し、前記候補新造語の前記位置から前記訓練コーパス内の訓練終了位置まで読むために必要とされる時間を推定して逆方向時間を取得し、前記候補新造語に対応する前記同時確率を、前記順方向時間および前記逆方向時間に従って予め設定された指数減衰関数を使用することによって更新して、更新された同時確率を取得するようにさらに構成される請求項14に記載の装置。
- 前記特定の規則が、エビングハウスの記憶の法則であり、前記指数減衰関数が、前記エビングハウスの記憶の法則に従って構築される請求項15に記載の装置。
- 前記更新ユニットが、前記訓練コーパス内の前記訓練開始位置と前記候補新造語の前記位置との間の距離を計算して第1の距離を取得し、前記第1の距離を予め設定された読む速度によって割って前記順方向時間を取得するようにさらに構成される請求項15に記載の装置。
- 前記更新ユニットが、前記候補新造語の前記位置から前記訓練コーパス内の前記訓練終了位置との間の距離を計算して第2の距離を取得し、前記第2の距離を予め設定された読む速度によって割って前記逆方向時間を取得するようにさらに構成される請求項15に記載の装置。
- テキスト情報処理装置であって、
1つまたは複数のプロセッサと、
プログラム命令を記憶するメモリであって、前記命令が、前記プロセッサによって実行されるときに装置に請求項1から9のいずれか一項に記載の方法を実行させる、メモリと
を含む、装置。 - プログラム命令を含むコンピュータ可読記憶媒体であって、前記命令が、コンピューティング装置のプロセッサによって実行されるときに前記装置に請求項1から9のいずれか一項に記載の方法を実行させる、コンピュータ可読記憶媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610091229.X | 2016-02-18 | ||
CN201610091229.XA CN107092588B (zh) | 2016-02-18 | 2016-02-18 | 一种文本信息处理方法、装置和系统 |
PCT/CN2017/073020 WO2017140221A1 (zh) | 2016-02-18 | 2017-02-07 | 文本信息处理方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018536920A true JP2018536920A (ja) | 2018-12-13 |
JP6594534B2 JP6594534B2 (ja) | 2019-10-23 |
Family
ID=59624796
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018518610A Active JP6594534B2 (ja) | 2016-02-18 | 2017-02-07 | テキスト情報処理方法およびデバイス |
Country Status (5)
Country | Link |
---|---|
US (1) | US10496747B2 (ja) |
EP (1) | EP3418906A4 (ja) |
JP (1) | JP6594534B2 (ja) |
CN (1) | CN107092588B (ja) |
WO (1) | WO2017140221A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022050622A (ja) * | 2021-03-23 | 2022-03-30 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | 分野フレーズマイニング方法、装置及び電子機器 |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110020120B (zh) * | 2017-10-10 | 2023-11-10 | 腾讯科技(北京)有限公司 | 内容投放系统中的特征词处理方法、装置及存储介质 |
CN110245345A (zh) * | 2018-03-08 | 2019-09-17 | 普天信息技术有限公司 | 适用于网络新词的分词处理方法及装置 |
CN110765271B (zh) * | 2018-07-09 | 2024-02-09 | 株式会社理光 | 一种实体发现与实体链接的联合处理方法及装置 |
CN109344396A (zh) * | 2018-08-31 | 2019-02-15 | 阿里巴巴集团控股有限公司 | 文本识别方法、装置、及计算机设备 |
CN109492217B (zh) * | 2018-10-11 | 2024-07-05 | 平安科技(深圳)有限公司 | 一种基于机器学习的分词方法及终端设备 |
CN109408818B (zh) * | 2018-10-12 | 2023-04-07 | 平安科技(深圳)有限公司 | 新词识别方法、装置、计算机设备及存储介质 |
CN109472022A (zh) * | 2018-10-15 | 2019-03-15 | 平安科技(深圳)有限公司 | 基于机器学习的新词识别方法及终端设备 |
CN109670170B (zh) * | 2018-11-21 | 2023-04-07 | 东软集团股份有限公司 | 专业词汇挖掘方法、装置、可读存储介质及电子设备 |
CN111444710B (zh) * | 2019-01-15 | 2023-04-18 | 阿里巴巴集团控股有限公司 | 分词方法及分词装置 |
CN110147435B (zh) * | 2019-01-24 | 2023-08-22 | 腾讯科技(深圳)有限公司 | 对话生成方法、装置、设备及存储介质 |
CN111832310B (zh) * | 2019-04-23 | 2024-04-16 | 北京嘀嘀无限科技发展有限公司 | 一种文本处理方法及装置 |
CN111859948B (zh) * | 2019-04-28 | 2024-06-11 | 北京嘀嘀无限科技发展有限公司 | 语言识别、语言模型训练、字符预测方法及装置 |
CN110705254B (zh) * | 2019-09-27 | 2023-04-07 | 科大讯飞股份有限公司 | 文本断句方法、装置、电子设备和存储介质 |
CN112818210B (zh) * | 2019-11-15 | 2024-06-21 | 上海连尚网络科技有限公司 | 用于推送信息的方法和设备 |
CN111259985B (zh) * | 2020-02-19 | 2023-06-30 | 腾讯云计算(长沙)有限责任公司 | 基于业务安全的分类模型训练方法、装置和存储介质 |
CN111339753B (zh) * | 2020-02-25 | 2023-06-16 | 北京林业大学 | 一种自适应中文新词识别方法与系统 |
CN111597822B (zh) * | 2020-05-19 | 2024-03-08 | 北京奇艺世纪科技有限公司 | 一种对象名称识别方法及装置 |
CN111813941A (zh) * | 2020-07-23 | 2020-10-23 | 北京来也网络科技有限公司 | 结合rpa和ai的文本分类方法、装置、设备及介质 |
CN112000794B (zh) * | 2020-07-30 | 2023-08-22 | 北京百度网讯科技有限公司 | 文本语料筛选方法、装置、电子设备及存储介质 |
CN113780007A (zh) * | 2021-10-22 | 2021-12-10 | 平安科技(深圳)有限公司 | 语料筛选方法、意图识别模型优化方法、设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08161340A (ja) * | 1994-12-12 | 1996-06-21 | Ricoh Co Ltd | 連語自動抽出装置 |
JPH11134334A (ja) * | 1997-10-29 | 1999-05-21 | Fujitsu Ltd | 単語登録装置及び記録媒体 |
CN101706807A (zh) * | 2009-11-27 | 2010-05-12 | 清华大学 | 一种中文网页新词自动获取方法 |
CN102681981A (zh) * | 2011-03-11 | 2012-09-19 | 富士通株式会社 | 自然语言词法分析方法、装置及分析器训练方法 |
CN102955771A (zh) * | 2011-08-18 | 2013-03-06 | 华东师范大学 | 中文单字串模式和词缀模式的新词自动识别技术及系统 |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070078644A1 (en) * | 2005-09-30 | 2007-04-05 | Microsoft Corporation | Detecting segmentation errors in an annotated corpus |
US20090313017A1 (en) * | 2006-07-07 | 2009-12-17 | Satoshi Nakazawa | Language model update device, language Model update method, and language model update program |
JP4446313B2 (ja) * | 2006-12-15 | 2010-04-07 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 音声処理用の辞書に登録するべき新規語句を検索する技術 |
CN101004737A (zh) * | 2007-01-24 | 2007-07-25 | 贵阳易特软件有限公司 | 基于关键词的个性化文档处理系统 |
CN100504851C (zh) * | 2007-06-27 | 2009-06-24 | 腾讯科技(深圳)有限公司 | 一种中文分词方法及系统 |
CN101976233B (zh) * | 2010-09-30 | 2012-11-14 | 北京新媒传信科技有限公司 | 基于序列模式的新词发现方法 |
CN102708147B (zh) * | 2012-03-26 | 2015-02-18 | 北京新发智信科技有限责任公司 | 一种科技术语的新词识别方法 |
US9229924B2 (en) * | 2012-08-24 | 2016-01-05 | Microsoft Technology Licensing, Llc | Word detection and domain dictionary recommendation |
CN102930055B (zh) * | 2012-11-18 | 2015-11-04 | 浙江大学 | 结合内部聚合度和外部离散信息熵的网络新词发现方法 |
CN104102658B (zh) * | 2013-04-09 | 2018-09-07 | 腾讯科技(深圳)有限公司 | 文本内容挖掘方法及装置 |
CN103413478A (zh) * | 2013-07-09 | 2013-11-27 | 复旦大学 | 记忆单词智能学习方法与系统 |
CN103678282B (zh) * | 2014-01-07 | 2016-05-25 | 苏州思必驰信息科技有限公司 | 一种分词方法及装置 |
CN104915327B (zh) * | 2014-03-14 | 2019-01-29 | 腾讯科技(深圳)有限公司 | 一种文本信息的处理方法及装置 |
US9645998B1 (en) * | 2016-06-12 | 2017-05-09 | Apple Inc. | Learning new words |
US10460038B2 (en) * | 2016-06-24 | 2019-10-29 | Facebook, Inc. | Target phrase classifier |
TWI640877B (zh) * | 2017-06-14 | 2018-11-11 | 財團法人資訊工業策進會 | 語意分析裝置、方法及其電腦程式產品 |
-
2016
- 2016-02-18 CN CN201610091229.XA patent/CN107092588B/zh active Active
-
2017
- 2017-02-07 WO PCT/CN2017/073020 patent/WO2017140221A1/zh active Application Filing
- 2017-02-07 JP JP2018518610A patent/JP6594534B2/ja active Active
- 2017-02-07 EP EP17752653.0A patent/EP3418906A4/en not_active Ceased
-
2018
- 2018-03-29 US US15/940,159 patent/US10496747B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08161340A (ja) * | 1994-12-12 | 1996-06-21 | Ricoh Co Ltd | 連語自動抽出装置 |
JPH11134334A (ja) * | 1997-10-29 | 1999-05-21 | Fujitsu Ltd | 単語登録装置及び記録媒体 |
CN101706807A (zh) * | 2009-11-27 | 2010-05-12 | 清华大学 | 一种中文网页新词自动获取方法 |
CN102681981A (zh) * | 2011-03-11 | 2012-09-19 | 富士通株式会社 | 自然语言词法分析方法、装置及分析器训练方法 |
CN102955771A (zh) * | 2011-08-18 | 2013-03-06 | 华东师范大学 | 中文单字串模式和词缀模式的新词自动识别技术及系统 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022050622A (ja) * | 2021-03-23 | 2022-03-30 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | 分野フレーズマイニング方法、装置及び電子機器 |
JP7351942B2 (ja) | 2021-03-23 | 2023-09-27 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | 分野フレーズマイニング方法、装置及び電子機器 |
Also Published As
Publication number | Publication date |
---|---|
US10496747B2 (en) | 2019-12-03 |
EP3418906A4 (en) | 2019-09-04 |
JP6594534B2 (ja) | 2019-10-23 |
CN107092588B (zh) | 2022-09-09 |
EP3418906A1 (en) | 2018-12-26 |
WO2017140221A1 (zh) | 2017-08-24 |
US20180217979A1 (en) | 2018-08-02 |
CN107092588A (zh) | 2017-08-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6594534B2 (ja) | テキスト情報処理方法およびデバイス | |
US11169827B2 (en) | Resource loading at application startup using attributes of historical data groups | |
TWI729472B (zh) | 特徵詞的確定方法、裝置和伺服器 | |
US20190087490A1 (en) | Text classification method and apparatus | |
CN113284142B (zh) | 图像检测方法、装置、计算机可读存储介质及计算机设备 | |
US10204164B2 (en) | Systems and methods for filtering microblogs | |
CN107784034B (zh) | 页面类别识别方法及装置、用于页面类别识别的装置 | |
CN110825863B (zh) | 一种文本对融合方法及装置 | |
CN107885718B (zh) | 语义确定方法及装置 | |
CN109543014B (zh) | 人机对话方法、装置、终端及服务器 | |
CN114861889A (zh) | 深度学习模型的训练方法、目标对象检测方法和装置 | |
CN112528641A (zh) | 建立信息抽取模型的方法、装置、电子设备和可读存储介质 | |
CN114357278B (zh) | 一种话题推荐方法、装置及设备 | |
CN110069769A (zh) | 应用标签生成方法、装置及存储设备 | |
CN110427622A (zh) | 语料标注的评估方法、装置及存储介质 | |
CN112580723B (zh) | 多模型融合方法、装置、电子设备和存储介质 | |
CN111666417A (zh) | 生成同义词的方法、装置、电子设备以及可读存储介质 | |
CN111680599A (zh) | 人脸识别模型处理方法、装置、设备和存储介质 | |
CN115186738B (zh) | 模型训练方法、装置和存储介质 | |
CN111611369B (zh) | 基于人工智能的交互方法和相关装置 | |
EP4053713A1 (en) | Question and answer method and apparatus based on knowledge graph | |
CN113408632A (zh) | 提高图像分类准确性的方法、装置、电子设备及存储介质 | |
CN112766005A (zh) | 文本翻译方法、装置、设备及介质 | |
CN111460971A (zh) | 视频概念检测方法、装置以及电子设备 | |
CN115131709B (zh) | 视频类别预测方法、视频类别预测模型的训练方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A524 | Written submission of copy of amendment under article 19 pct |
Free format text: JAPANESE INTERMEDIATE CODE: A524 Effective date: 20180718 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180607 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190422 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190507 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190807 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190826 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190924 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6594534 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |