CN102411563B - 一种识别目标词的方法、装置及系统 - Google Patents

一种识别目标词的方法、装置及系统 Download PDF

Info

Publication number
CN102411563B
CN102411563B CN201010295054.7A CN201010295054A CN102411563B CN 102411563 B CN102411563 B CN 102411563B CN 201010295054 A CN201010295054 A CN 201010295054A CN 102411563 B CN102411563 B CN 102411563B
Authority
CN
China
Prior art keywords
text data
specific characteristic
word
combine text
common factor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201010295054.7A
Other languages
English (en)
Chinese (zh)
Other versions
CN102411563A (zh
Inventor
孙海波
杨扬
陈一宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201010295054.7A priority Critical patent/CN102411563B/zh
Priority to TW099140212A priority patent/TWI518528B/zh
Priority to US13/240,034 priority patent/US8744839B2/en
Priority to EP11827103.0A priority patent/EP2619651A4/en
Priority to JP2013530136A priority patent/JP5608817B2/ja
Priority to PCT/US2011/001648 priority patent/WO2012039778A1/en
Publication of CN102411563A publication Critical patent/CN102411563A/zh
Priority to HK12107009.0A priority patent/HK1166397B/xx
Application granted granted Critical
Publication of CN102411563B publication Critical patent/CN102411563B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
CN201010295054.7A 2010-09-26 2010-09-26 一种识别目标词的方法、装置及系统 Active CN102411563B (zh)

Priority Applications (7)

Application Number Priority Date Filing Date Title
CN201010295054.7A CN102411563B (zh) 2010-09-26 2010-09-26 一种识别目标词的方法、装置及系统
TW099140212A TWI518528B (zh) 2010-09-26 2010-11-22 Method, apparatus and system for identifying target words
US13/240,034 US8744839B2 (en) 2010-09-26 2011-09-22 Recognition of target words using designated characteristic values
JP2013530136A JP5608817B2 (ja) 2010-09-26 2011-09-23 指定特性値を使用するターゲット単語の認識
EP11827103.0A EP2619651A4 (en) 2010-09-26 2011-09-23 Recognition of target words using designated characteristic values
PCT/US2011/001648 WO2012039778A1 (en) 2010-09-26 2011-09-23 Recognition of target words using designated characteristic values
HK12107009.0A HK1166397B (en) 2012-07-18 Method, apparatus and system for recognizing target words

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201010295054.7A CN102411563B (zh) 2010-09-26 2010-09-26 一种识别目标词的方法、装置及系统

Publications (2)

Publication Number Publication Date
CN102411563A CN102411563A (zh) 2012-04-11
CN102411563B true CN102411563B (zh) 2015-06-17

Family

ID=45871528

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201010295054.7A Active CN102411563B (zh) 2010-09-26 2010-09-26 一种识别目标词的方法、装置及系统

Country Status (6)

Country Link
US (1) US8744839B2 (enExample)
EP (1) EP2619651A4 (enExample)
JP (1) JP5608817B2 (enExample)
CN (1) CN102411563B (enExample)
TW (1) TWI518528B (enExample)
WO (1) WO2012039778A1 (enExample)

Families Citing this family (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5799733B2 (ja) * 2011-10-12 2015-10-28 富士通株式会社 認識装置、認識プログラムおよび認識方法
KR101359718B1 (ko) * 2012-05-17 2014-02-13 포항공과대학교 산학협력단 대화 관리 시스템 및 방법
CN104111933B (zh) * 2013-04-17 2017-08-04 阿里巴巴集团控股有限公司 获取业务对象标签、建立训练模型的方法及装置
US12099936B2 (en) * 2014-03-26 2024-09-24 Unanimous A. I., Inc. Systems and methods for curating an optimized population of networked forecasting participants from a baseline population
US10592841B2 (en) * 2014-10-10 2020-03-17 Salesforce.Com, Inc. Automatic clustering by topic and prioritizing online feed items
TW201619885A (zh) * 2014-11-17 2016-06-01 財團法人資訊工業策進會 電子商務口碑分析系統、方法和其電腦可讀取記錄媒體
CN105528403B (zh) * 2015-12-02 2020-01-03 小米科技有限责任公司 目标数据识别方法及装置
CN106933797B (zh) * 2015-12-29 2021-01-26 北京趣拿信息技术有限公司 目标信息的生成方法及装置
CN105653701B (zh) 2015-12-31 2019-01-15 百度在线网络技术(北京)有限公司 模型生成方法及装置、词语赋权方法及装置
CN105893351B (zh) * 2016-03-31 2019-08-20 海信集团有限公司 语音识别方法及装置
CN108073568B (zh) * 2016-11-10 2020-09-11 腾讯科技(深圳)有限公司 关键词提取方法和装置
JP6618884B2 (ja) * 2016-11-17 2019-12-11 株式会社東芝 認識装置、認識方法およびプログラム
CN108228556A (zh) * 2016-12-14 2018-06-29 北京国双科技有限公司 关键短语提取方法及装置
CN108960952A (zh) * 2017-05-24 2018-12-07 阿里巴巴集团控股有限公司 一种违禁信息的检测方法及装置
CN109241392A (zh) * 2017-07-04 2019-01-18 北京搜狗科技发展有限公司 目标词的识别方法、装置、系统及存储介质
CN110998589B (zh) * 2017-07-31 2023-06-27 北京嘀嘀无限科技发展有限公司 用于分割文本的系统和方法
CN108304377B (zh) * 2017-12-28 2021-08-06 东软集团股份有限公司 一种长尾词的提取方法及相关装置
CN108681534A (zh) * 2018-04-11 2018-10-19 广州视源电子科技股份有限公司 候选词评估方法、装置、计算机设备和存储介质
CN108733645A (zh) * 2018-04-11 2018-11-02 广州视源电子科技股份有限公司 候选词评估方法、装置、计算机设备和存储介质
CN108595433A (zh) * 2018-05-02 2018-09-28 北京中电普华信息技术有限公司 一种新词发现方法及装置
CN108874921A (zh) * 2018-05-30 2018-11-23 广州杰赛科技股份有限公司 提取文本特征词的方法、装置、终端设备及存储介质
CN109241525B (zh) * 2018-08-20 2022-05-06 深圳追一科技有限公司 关键词的提取方法、装置和系统
CN109271624B (zh) * 2018-08-23 2020-05-29 腾讯科技(深圳)有限公司 一种目标词确定方法、装置及存储介质
CN109460450B (zh) * 2018-09-27 2021-07-09 清华大学 对话状态跟踪方法、装置、计算机设备和存储介质
CN109670170B (zh) * 2018-11-21 2023-04-07 东软集团股份有限公司 专业词汇挖掘方法、装置、可读存储介质及电子设备
CN111222328B (zh) * 2018-11-26 2023-06-16 百度在线网络技术(北京)有限公司 标签提取方法、装置和电子设备
CN109800435B (zh) * 2019-01-29 2023-06-20 北京金山数字娱乐科技有限公司 一种语言模型的训练方法及装置
CN110275938B (zh) * 2019-05-29 2021-09-17 广州伟宏智能科技有限公司 基于非结构化文档的知识提取方法及系统
CN110532551A (zh) * 2019-08-15 2019-12-03 苏州朗动网络科技有限公司 文本关键词自动提取的方法、设备和存储介质
CN111079421B (zh) * 2019-11-25 2023-09-26 北京小米智能科技有限公司 一种文本信息分词处理的方法、装置、终端及存储介质
CN111191446B (zh) * 2019-12-10 2022-11-25 平安医疗健康管理股份有限公司 交互信息处理方法、装置、计算机设备和存储介质
CN111274353B (zh) * 2020-01-14 2023-08-01 百度在线网络技术(北京)有限公司 文本切词方法、装置、设备和介质
CN111402894B (zh) * 2020-03-25 2023-06-06 北京声智科技有限公司 语音识别方法及电子设备
CN111159417A (zh) * 2020-04-07 2020-05-15 北京泰迪熊移动科技有限公司 文本内容关键信息的提取方法、装置、设备及存储介质
CN111477219A (zh) * 2020-05-08 2020-07-31 合肥讯飞数码科技有限公司 关键词区分方法、装置、电子设备和可读存储介质
CN112101030B (zh) * 2020-08-24 2024-01-26 沈阳东软智能医疗科技研究院有限公司 建立术语映射模型、实现标准词映射的方法、装置及设备
CN112257416A (zh) * 2020-10-28 2021-01-22 国家电网有限公司客户服务中心 一种稽查新词发现方法及系统
CN112559865B (zh) * 2020-12-15 2023-12-08 泰康保险集团股份有限公司 信息处理系统、计算机可读存储介质及电子设备
CN113609296B (zh) * 2021-08-23 2022-09-06 南京擎盾信息科技有限公司 用于舆情数据识别的数据处理方法和装置
CN113836303A (zh) * 2021-09-26 2021-12-24 平安科技(深圳)有限公司 一种文本类别识别方法、装置、计算机设备及介质
CN115879459A (zh) * 2022-06-23 2023-03-31 北京中关村科金技术有限公司 词语的确定方法、装置、电子设备及计算机可读存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1340804A (zh) * 2000-08-30 2002-03-20 国际商业机器公司 自动新词提取方法和系统
CN101149739A (zh) * 2007-08-24 2008-03-26 中国科学院计算技术研究所 一种面向互联网的有意义串的挖掘方法和系统

Family Cites Families (58)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2836159B2 (ja) 1990-01-30 1998-12-14 株式会社日立製作所 同時通訳向き音声認識システムおよびその音声認識方法
US20020032564A1 (en) * 2000-04-19 2002-03-14 Farzad Ehsani Phrase-based dialogue modeling with particular application to creating a recognition grammar for a voice-controlled user interface
US7225182B2 (en) * 1999-05-28 2007-05-29 Overture Services, Inc. Recommending search terms using collaborative filtering and web spidering
JP3689670B2 (ja) 1999-10-28 2005-08-31 キヤノン株式会社 パターン整合方法及び装置
US7725307B2 (en) 1999-11-12 2010-05-25 Phoenix Solutions, Inc. Query engine for processing voice based queries including semantic decoding
US6711561B1 (en) * 2000-05-02 2004-03-23 Iphrase.Com, Inc. Prose feedback in information access system
KR100426382B1 (ko) * 2000-08-23 2004-04-08 학교법인 김포대학 엔트로피 정보와 베이지안 에스오엠을 이용한 문서군집기반의 순위조정 방법
US7711547B2 (en) * 2001-03-16 2010-05-04 Meaningful Machines, L.L.C. Word association method and apparatus
US7475006B2 (en) * 2001-07-11 2009-01-06 Microsoft Corporation, Inc. Method and apparatus for parsing text using mutual information
WO2003027894A1 (en) * 2001-09-26 2003-04-03 The Trustees Of Columbia University In The City Of New York System and method of generating dictionary entries
US6889191B2 (en) * 2001-12-03 2005-05-03 Scientific-Atlanta, Inc. Systems and methods for TV navigation with compressed voice-activated commands
US20060004732A1 (en) * 2002-02-26 2006-01-05 Odom Paul S Search engine methods and systems for generating relevant search results and advertisements
CA2374298A1 (en) * 2002-03-01 2003-09-01 Ibm Canada Limited-Ibm Canada Limitee Computation of frequent data values
JP2005519411A (ja) * 2002-03-05 2005-06-30 シーメンス メディカル ソルーションズ ヘルス サーヴィシズ コーポレイション 動的辞書及び用語蓄積システム
US7620538B2 (en) * 2002-03-26 2009-11-17 University Of Southern California Constructing a translation lexicon from comparable, non-parallel corpora
WO2004044887A1 (ja) * 2002-11-11 2004-05-27 Matsushita Electric Industrial Co., Ltd. 音声認識用辞書作成装置および音声認識装置
US20040098380A1 (en) * 2002-11-19 2004-05-20 Dentel Stephen D. Method, system and apparatus for providing a search system
JP2004318480A (ja) * 2003-04-16 2004-11-11 Sony Corp 電子機器装置、新語抽出方法、およびプログラム
US7555428B1 (en) * 2003-08-21 2009-06-30 Google Inc. System and method for identifying compounds through iterative analysis
US7424421B2 (en) * 2004-03-03 2008-09-09 Microsoft Corporation Word collection method and system for use in word-breaking
US7478033B2 (en) * 2004-03-16 2009-01-13 Google Inc. Systems and methods for translating Chinese pinyin to Chinese characters
US20080077570A1 (en) * 2004-10-25 2008-03-27 Infovell, Inc. Full Text Query and Search Systems and Method of Use
KR100682897B1 (ko) * 2004-11-09 2007-02-15 삼성전자주식회사 사전 업데이트 방법 및 그 장치
WO2006073095A1 (ja) * 2005-01-07 2006-07-13 Matsushita Electric Industrial Co., Ltd. 連想辞書作成装置
CN100530171C (zh) * 2005-01-31 2009-08-19 日电(中国)有限公司 字典学习方法和字典学习装置
US20070112839A1 (en) * 2005-06-07 2007-05-17 Anna Bjarnestam Method and system for expansion of structured keyword vocabulary
JP4816409B2 (ja) * 2006-01-10 2011-11-16 日産自動車株式会社 認識辞書システムおよびその更新方法
JP3983265B1 (ja) * 2006-09-27 2007-09-26 沖電気工業株式会社 辞書作成支援システム、方法及びプログラム
US8539349B1 (en) * 2006-10-31 2013-09-17 Hewlett-Packard Development Company, L.P. Methods and systems for splitting a chinese character sequence into word segments
JP4997601B2 (ja) 2006-11-30 2012-08-08 独立行政法人産業技術総合研究所 音声データ検索用webサイトシステム
JP2008140117A (ja) * 2006-12-01 2008-06-19 National Institute Of Information & Communication Technology 中国語の文字シーケンスを中国語の単語シーケンスにセグメント化するための装置
JP5239161B2 (ja) * 2007-01-04 2013-07-17 富士ゼロックス株式会社 言語解析システム、および言語解析方法、並びにコンピュータ・プログラム
CN101261623A (zh) * 2007-03-07 2008-09-10 国际商业机器公司 基于搜索的无词边界标记语言的分词方法以及装置
US20100180199A1 (en) * 2007-06-01 2010-07-15 Google Inc. Detecting name entities and new words
JP5241828B2 (ja) * 2007-06-14 2013-07-17 グーグル・インコーポレーテッド 辞書の単語及び熟語の判定
CN101779200B (zh) * 2007-06-14 2013-03-20 谷歌股份有限公司 词典词和短语确定方法和设备
JP2010531492A (ja) * 2007-06-25 2010-09-24 グーグル・インコーポレーテッド ワード確率決定
US8832140B2 (en) * 2007-06-26 2014-09-09 Oracle Otc Subsidiary Llc System and method for measuring the quality of document sets
US7917355B2 (en) * 2007-08-23 2011-03-29 Google Inc. Word detection
JP5379138B2 (ja) * 2007-08-23 2013-12-25 グーグル・インコーポレーテッド 領域辞書の作成
CN101458681A (zh) 2007-12-10 2009-06-17 株式会社东芝 语音翻译方法和语音翻译装置
JP2009176148A (ja) * 2008-01-25 2009-08-06 Nec Corp 未知語判定システム、方法及びプログラム
US20090299998A1 (en) * 2008-02-15 2009-12-03 Wordstream, Inc. Keyword discovery tools for populating a private keyword database
US20100114878A1 (en) * 2008-10-22 2010-05-06 Yumao Lu Selective term weighting for web search based on automatic semantic parsing
US8346534B2 (en) * 2008-11-06 2013-01-01 University of North Texas System Method, system and apparatus for automatic keyword extraction
US7996369B2 (en) * 2008-11-14 2011-08-09 The Regents Of The University Of California Method and apparatus for improving performance of approximate string queries using variable length high-quality grams
US20100138411A1 (en) * 2008-11-30 2010-06-03 Nexidia Inc. Segmented Query Word Spotting
US20100145677A1 (en) * 2008-12-04 2010-06-10 Adacel Systems, Inc. System and Method for Making a User Dependent Language Model
US8032537B2 (en) * 2008-12-10 2011-10-04 Microsoft Corporation Using message sampling to determine the most frequent words in a user mailbox
KR101255557B1 (ko) * 2008-12-22 2013-04-17 한국전자통신연구원 음절 분리에 기반한 문자열 검색 시스템 및 그 방법
US8145662B2 (en) * 2008-12-31 2012-03-27 Ebay Inc. Methods and apparatus for generating a data dictionary
JP4701292B2 (ja) * 2009-01-05 2011-06-15 インターナショナル・ビジネス・マシーンズ・コーポレーション テキスト・データに含まれる固有表現又は専門用語から用語辞書を作成するためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラム
JP2010176285A (ja) * 2009-01-28 2010-08-12 Nippon Telegr & Teleph Corp <Ntt> 未知語登録方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
US20100205198A1 (en) * 2009-02-06 2010-08-12 Gilad Mishne Search query disambiguation
US20100287177A1 (en) * 2009-05-06 2010-11-11 Foundationip, Llc Method, System, and Apparatus for Searching an Electronic Document Collection
US8392440B1 (en) * 2009-08-15 2013-03-05 Google Inc. Online de-compounding of query terms
CN101996631B (zh) 2009-08-28 2014-12-03 国际商业机器公司 用于对齐文本的方法和装置
US20110082848A1 (en) * 2009-10-05 2011-04-07 Lev Goldentouch Systems, methods and computer program products for search results management

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1340804A (zh) * 2000-08-30 2002-03-20 国际商业机器公司 自动新词提取方法和系统
CN101149739A (zh) * 2007-08-24 2008-03-26 中国科学院计算技术研究所 一种面向互联网的有意义串的挖掘方法和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
中文新词识别研究;徐亮;《中国优秀硕士论文全文数据库》;20100715(第07期);22-46 *

Also Published As

Publication number Publication date
TWI518528B (zh) 2016-01-21
EP2619651A1 (en) 2013-07-31
US8744839B2 (en) 2014-06-03
US20120078631A1 (en) 2012-03-29
EP2619651A4 (en) 2017-12-27
JP2013545160A (ja) 2013-12-19
CN102411563A (zh) 2012-04-11
TW201214169A (en) 2012-04-01
HK1166397A1 (en) 2012-10-26
JP5608817B2 (ja) 2014-10-15
WO2012039778A1 (en) 2012-03-29

Similar Documents

Publication Publication Date Title
CN102411563B (zh) 一种识别目标词的方法、装置及系统
CN103914478B (zh) 网页训练方法及系统、网页预测方法及系统
CN113590764B (zh) 训练样本构建方法、装置、电子设备和存储介质
CN106599054B (zh) 一种题目分类及推送的方法及系统
CN102289522B (zh) 一种对于文本智能分类的方法
CN106156372B (zh) 一种互联网网站的分类方法及装置
CN109376352B (zh) 一种基于word2vec和语义相似度的专利文本建模方法
CN105279252A (zh) 挖掘相关词的方法、搜索方法、搜索系统
CN103942340A (zh) 一种基于文本挖掘的微博用户兴趣识别方法
CN107145516B (zh) 一种文本聚类方法及系统
CN108874921A (zh) 提取文本特征词的方法、装置、终端设备及存储介质
CN107423339A (zh) 基于极端梯度推进和随机森林的热门微博预测方法
CN107122340A (zh) 一种基于同义词分析的科技项目申报书的相似度检测方法
CN104361037B (zh) 微博分类方法及装置
CN105677640A (zh) 一种面向开放文本的领域概念抽取方法
CN107545038A (zh) 一种文本分类方法与设备
CN104881458A (zh) 一种网页主题的标注方法和装置
CN109918648B (zh) 一种基于动态滑动窗口特征评分的谣言深度检测方法
CN104679911B (zh) 一种基于离散弱相关的云平台决策森林分类方法
CN109558587A (zh) 一种针对类别分布不平衡的舆论倾向性识别的分类方法
CN107423348A (zh) 一种基于关键词的精确检索方法
CN103268346B (zh) 半监督分类方法及系统
CN104536957B (zh) 农用土地流转信息检索方法和系统
CN106991171A (zh) 基于智慧校园信息服务平台的话题发现方法
CN109871434B (zh) 一种基于动态增量式的概率图模型的舆情演化跟踪方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1166397

Country of ref document: HK

C14 Grant of patent or utility model
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: GR

Ref document number: 1166397

Country of ref document: HK