CN104462378A - 用于文本识别的数据处理方法及装置 - Google Patents
用于文本识别的数据处理方法及装置 Download PDFInfo
- Publication number
- CN104462378A CN104462378A CN201410751278.2A CN201410751278A CN104462378A CN 104462378 A CN104462378 A CN 104462378A CN 201410751278 A CN201410751278 A CN 201410751278A CN 104462378 A CN104462378 A CN 104462378A
- Authority
- CN
- China
- Prior art keywords
- word
- chit
- chat
- similarity
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 16
- 239000013598 vector Substances 0.000 claims abstract description 219
- 238000000034 method Methods 0.000 claims abstract description 45
- 239000000463 material Substances 0.000 claims description 62
- 238000001914 filtration Methods 0.000 claims description 15
- 230000008569 process Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 238000003058 natural language processing Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000004069 differentiation Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000004821 distillation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
Claims (10)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410751278.2A CN104462378B (zh) | 2014-12-09 | 2014-12-09 | 用于文本识别的数据处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410751278.2A CN104462378B (zh) | 2014-12-09 | 2014-12-09 | 用于文本识别的数据处理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104462378A true CN104462378A (zh) | 2015-03-25 |
CN104462378B CN104462378B (zh) | 2017-11-21 |
Family
ID=52908413
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410751278.2A Active CN104462378B (zh) | 2014-12-09 | 2014-12-09 | 用于文本识别的数据处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104462378B (zh) |
Cited By (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104751354A (zh) * | 2015-04-13 | 2015-07-01 | 合一信息技术(北京)有限公司 | 一种广告人群筛选方法 |
CN105100353A (zh) * | 2015-09-08 | 2015-11-25 | 陈包容 | 一种对移动终端的新增联系人进行通讯录分组的方法 |
CN105245680A (zh) * | 2015-09-09 | 2016-01-13 | 陈包容 | 对移动终端的新增联系人进行通讯录分组的方法及装置 |
CN105262875A (zh) * | 2015-09-09 | 2016-01-20 | 陈包容 | 对移动终端的新增联系人进行通讯录分组的方法及装置 |
CN105261362A (zh) * | 2015-09-07 | 2016-01-20 | 科大讯飞股份有限公司 | 一种通话语音监测方法及系统 |
CN105681523A (zh) * | 2016-03-03 | 2016-06-15 | 陈包容 | 一种自动发送生日祝福短信的方法及装置 |
CN106021272A (zh) * | 2016-04-04 | 2016-10-12 | 上海大学 | 基于分布式表达词向量计算的关键词自动提取方法 |
CN106547740A (zh) * | 2016-11-24 | 2017-03-29 | 四川无声信息技术有限公司 | 文本信息处理方法及装置 |
CN107291774A (zh) * | 2016-04-11 | 2017-10-24 | 北京京东尚科信息技术有限公司 | 错误样本识别方法和装置 |
CN108133045A (zh) * | 2018-01-12 | 2018-06-08 | 广州杰赛科技股份有限公司 | 关键词提取方法与系统、关键词提取模型生成方法与系统 |
CN108304387A (zh) * | 2018-03-09 | 2018-07-20 | 联想(北京)有限公司 | 文本中噪音词的识别方法、装置、服务器组及存储介质 |
CN108874921A (zh) * | 2018-05-30 | 2018-11-23 | 广州杰赛科技股份有限公司 | 提取文本特征词的方法、装置、终端设备及存储介质 |
CN109241269A (zh) * | 2018-07-27 | 2019-01-18 | 深圳追科技有限公司 | 任务型机器人词槽填充方法 |
CN109582790A (zh) * | 2018-11-13 | 2019-04-05 | 深圳市康拓普信息技术有限公司 | 一种基于名称高效核对不同系统中的电力设备的方法及装置 |
CN109657227A (zh) * | 2018-10-08 | 2019-04-19 | 平安科技(深圳)有限公司 | 合同可行性判定方法、设备、存储介质及装置 |
CN110795936A (zh) * | 2019-08-14 | 2020-02-14 | 腾讯科技(深圳)有限公司 | 词向量的获取方法和装置、存储介质及电子装置 |
CN110827811A (zh) * | 2018-08-13 | 2020-02-21 | 格力电器(武汉)有限公司 | 家电设备的语音控制方法及装置 |
CN110851602A (zh) * | 2019-11-13 | 2020-02-28 | 精硕科技(北京)股份有限公司 | 一种主题聚类的方法及装置 |
CN110956033A (zh) * | 2019-12-04 | 2020-04-03 | 北京中电普华信息技术有限公司 | 一种文本相似度计算方法及装置 |
CN110991161A (zh) * | 2018-09-30 | 2020-04-10 | 北京国双科技有限公司 | 相似文本确定方法、神经网络模型获得方法及相关装置 |
CN111104418A (zh) * | 2019-12-23 | 2020-05-05 | 北京百度网讯科技有限公司 | 文本描述的处理方法、装置和电子设备 |
CN111401099A (zh) * | 2018-12-28 | 2020-07-10 | 中国电信股份有限公司 | 文本识别方法、装置以及存储介质 |
CN111738009A (zh) * | 2019-03-19 | 2020-10-02 | 百度在线网络技术(北京)有限公司 | 实体词标签生成方法、装置、计算机设备和可读存储介质 |
CN111753541A (zh) * | 2020-06-24 | 2020-10-09 | 云南电网有限责任公司信息中心 | 一种对于合同文本数据进行自然语言处理nlp的方法及系统 |
CN113221557A (zh) * | 2021-05-28 | 2021-08-06 | 中国工商银行股份有限公司 | 一种基于神经网络的数据贯标管理方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100223051A1 (en) * | 2003-10-27 | 2010-09-02 | Educational Testing Service | Method and System for Determining Text Coherence |
CN102955774A (zh) * | 2012-05-30 | 2013-03-06 | 华东师范大学 | 一种计算中文词语语义相似度的控制方法以及装置 |
CN103226576A (zh) * | 2013-04-01 | 2013-07-31 | 杭州电子科技大学 | 基于语义相似度的垃圾评论过滤方法 |
CN103530281A (zh) * | 2013-10-15 | 2014-01-22 | 苏州大学 | 一种论元抽取方法和系统 |
-
2014
- 2014-12-09 CN CN201410751278.2A patent/CN104462378B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100223051A1 (en) * | 2003-10-27 | 2010-09-02 | Educational Testing Service | Method and System for Determining Text Coherence |
CN102955774A (zh) * | 2012-05-30 | 2013-03-06 | 华东师范大学 | 一种计算中文词语语义相似度的控制方法以及装置 |
CN103226576A (zh) * | 2013-04-01 | 2013-07-31 | 杭州电子科技大学 | 基于语义相似度的垃圾评论过滤方法 |
CN103530281A (zh) * | 2013-10-15 | 2014-01-22 | 苏州大学 | 一种论元抽取方法和系统 |
Cited By (35)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104751354B (zh) * | 2015-04-13 | 2018-06-26 | 合一信息技术(北京)有限公司 | 一种广告人群筛选方法 |
CN104751354A (zh) * | 2015-04-13 | 2015-07-01 | 合一信息技术(北京)有限公司 | 一种广告人群筛选方法 |
CN105261362A (zh) * | 2015-09-07 | 2016-01-20 | 科大讯飞股份有限公司 | 一种通话语音监测方法及系统 |
CN105100353B (zh) * | 2015-09-08 | 2017-11-14 | 陈包容 | 一种对移动终端的新增联系人进行通讯录分组的方法 |
CN105100353A (zh) * | 2015-09-08 | 2015-11-25 | 陈包容 | 一种对移动终端的新增联系人进行通讯录分组的方法 |
CN105262875A (zh) * | 2015-09-09 | 2016-01-20 | 陈包容 | 对移动终端的新增联系人进行通讯录分组的方法及装置 |
CN105245680A (zh) * | 2015-09-09 | 2016-01-13 | 陈包容 | 对移动终端的新增联系人进行通讯录分组的方法及装置 |
CN105681523A (zh) * | 2016-03-03 | 2016-06-15 | 陈包容 | 一种自动发送生日祝福短信的方法及装置 |
CN106021272A (zh) * | 2016-04-04 | 2016-10-12 | 上海大学 | 基于分布式表达词向量计算的关键词自动提取方法 |
CN106021272B (zh) * | 2016-04-04 | 2019-11-19 | 上海大学 | 基于分布式表达词向量计算的关键词自动提取方法 |
CN107291774A (zh) * | 2016-04-11 | 2017-10-24 | 北京京东尚科信息技术有限公司 | 错误样本识别方法和装置 |
CN107291774B (zh) * | 2016-04-11 | 2020-02-07 | 北京京东尚科信息技术有限公司 | 错误样本识别方法和装置 |
CN106547740A (zh) * | 2016-11-24 | 2017-03-29 | 四川无声信息技术有限公司 | 文本信息处理方法及装置 |
CN108133045A (zh) * | 2018-01-12 | 2018-06-08 | 广州杰赛科技股份有限公司 | 关键词提取方法与系统、关键词提取模型生成方法与系统 |
CN108133045B (zh) * | 2018-01-12 | 2020-07-24 | 广州杰赛科技股份有限公司 | 关键词提取方法与系统、关键词提取模型生成方法与系统 |
CN108304387B (zh) * | 2018-03-09 | 2021-06-15 | 联想(北京)有限公司 | 文本中噪音词的识别方法、装置、服务器组及存储介质 |
CN108304387A (zh) * | 2018-03-09 | 2018-07-20 | 联想(北京)有限公司 | 文本中噪音词的识别方法、装置、服务器组及存储介质 |
CN108874921A (zh) * | 2018-05-30 | 2018-11-23 | 广州杰赛科技股份有限公司 | 提取文本特征词的方法、装置、终端设备及存储介质 |
CN109241269A (zh) * | 2018-07-27 | 2019-01-18 | 深圳追科技有限公司 | 任务型机器人词槽填充方法 |
CN110827811A (zh) * | 2018-08-13 | 2020-02-21 | 格力电器(武汉)有限公司 | 家电设备的语音控制方法及装置 |
CN110991161A (zh) * | 2018-09-30 | 2020-04-10 | 北京国双科技有限公司 | 相似文本确定方法、神经网络模型获得方法及相关装置 |
CN109657227A (zh) * | 2018-10-08 | 2019-04-19 | 平安科技(深圳)有限公司 | 合同可行性判定方法、设备、存储介质及装置 |
CN109582790A (zh) * | 2018-11-13 | 2019-04-05 | 深圳市康拓普信息技术有限公司 | 一种基于名称高效核对不同系统中的电力设备的方法及装置 |
CN111401099A (zh) * | 2018-12-28 | 2020-07-10 | 中国电信股份有限公司 | 文本识别方法、装置以及存储介质 |
CN111738009A (zh) * | 2019-03-19 | 2020-10-02 | 百度在线网络技术(北京)有限公司 | 实体词标签生成方法、装置、计算机设备和可读存储介质 |
CN111738009B (zh) * | 2019-03-19 | 2023-10-20 | 百度在线网络技术(北京)有限公司 | 实体词标签生成方法、装置、计算机设备和可读存储介质 |
CN110795936A (zh) * | 2019-08-14 | 2020-02-14 | 腾讯科技(深圳)有限公司 | 词向量的获取方法和装置、存储介质及电子装置 |
CN110795936B (zh) * | 2019-08-14 | 2023-09-22 | 腾讯科技(深圳)有限公司 | 词向量的获取方法和装置、存储介质及电子装置 |
CN110851602A (zh) * | 2019-11-13 | 2020-02-28 | 精硕科技(北京)股份有限公司 | 一种主题聚类的方法及装置 |
CN110956033A (zh) * | 2019-12-04 | 2020-04-03 | 北京中电普华信息技术有限公司 | 一种文本相似度计算方法及装置 |
CN111104418B (zh) * | 2019-12-23 | 2023-08-29 | 北京百度网讯科技有限公司 | 文本描述的处理方法、装置和电子设备 |
CN111104418A (zh) * | 2019-12-23 | 2020-05-05 | 北京百度网讯科技有限公司 | 文本描述的处理方法、装置和电子设备 |
CN111753541A (zh) * | 2020-06-24 | 2020-10-09 | 云南电网有限责任公司信息中心 | 一种对于合同文本数据进行自然语言处理nlp的方法及系统 |
CN111753541B (zh) * | 2020-06-24 | 2023-08-15 | 云南电网有限责任公司信息中心 | 一种对于合同文本数据进行自然语言处理nlp的方法及系统 |
CN113221557A (zh) * | 2021-05-28 | 2021-08-06 | 中国工商银行股份有限公司 | 一种基于神经网络的数据贯标管理方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN104462378B (zh) | 2017-11-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104462378A (zh) | 用于文本识别的数据处理方法及装置 | |
CN106445998B (zh) | 一种基于敏感词的文本内容审核方法及系统 | |
US9626358B2 (en) | Creating ontologies by analyzing natural language texts | |
CN103514183B (zh) | 基于交互式文档聚类的信息检索方法及系统 | |
Yoshida et al. | Person name disambiguation by bootstrapping | |
CN107992542A (zh) | 一种基于主题模型的相似文章推荐方法 | |
CN109376352B (zh) | 一种基于word2vec和语义相似度的专利文本建模方法 | |
CN103605665A (zh) | 一种基于关键词的评审专家智能检索与推荐方法 | |
CN102662952A (zh) | 一种基于层次的中文文本并行数据挖掘方法 | |
CN103678275A (zh) | 一种基于主客观语义的双层次文本相似度计算方法 | |
CN106202211A (zh) | 一种基于微博类型的集成微博谣言识别方法 | |
Vani et al. | Using K-means cluster based techniques in external plagiarism detection | |
CN103207913A (zh) | 商品细粒度语义关系的获取方法和系统 | |
CN103970730A (zh) | 一种从单个中文文本中提取多主题词的方法 | |
CN102955857A (zh) | 一种搜索引擎中基于类中心压缩变换的文本聚类方法 | |
CN104778204A (zh) | 基于两层聚类的多文档主题发现方法 | |
CN108763348A (zh) | 一种扩展短文本词特征向量的分类改进方法 | |
CN105550168A (zh) | 一种确定对象的概念词的方法和装置 | |
CN101968801A (zh) | 一种单篇文本关键词的提取方法 | |
Nandi et al. | Bangla news recommendation using doc2vec | |
CN111324801A (zh) | 基于热点词的司法领域热点事件发现方法 | |
Chang et al. | A METHOD OF FINE-GRAINED SHORT TEXT SENTIMENT ANALYSIS BASED ON MACHINE LEARNING. | |
CN110134781A (zh) | 一种金融文本摘要自动抽取方法 | |
CN102722526B (zh) | 基于词性分类统计的重复网页和近似网页的识别方法 | |
Zhang et al. | A hot spot clustering method based on improved kmeans algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right |
Denomination of invention: Data processing method and device for text recognition Effective date of registration: 20190531 Granted publication date: 20171121 Pledgee: Shenzhen Black Horse World Investment Consulting Co.,Ltd. Pledgor: BEIJING GRIDSUM TECHNOLOGY Co.,Ltd. Registration number: 2019990000503 |
|
CP02 | Change in the address of a patent holder | ||
CP02 | Change in the address of a patent holder |
Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing Patentee after: BEIJING GRIDSUM TECHNOLOGY Co.,Ltd. Address before: 100086 Beijing city Haidian District Shuangyushu Area No. 76 Zhichun Road cuigongfandian 8 layer A Patentee before: BEIJING GRIDSUM TECHNOLOGY Co.,Ltd. |
|
PP01 | Preservation of patent right | ||
PP01 | Preservation of patent right |
Effective date of registration: 20240604 Granted publication date: 20171121 |