CN104462378B - 用于文本识别的数据处理方法及装置 - Google Patents
用于文本识别的数据处理方法及装置 Download PDFInfo
- Publication number
- CN104462378B CN104462378B CN201410751278.2A CN201410751278A CN104462378B CN 104462378 B CN104462378 B CN 104462378B CN 201410751278 A CN201410751278 A CN 201410751278A CN 104462378 B CN104462378 B CN 104462378B
- Authority
- CN
- China
- Prior art keywords
- word
- term vector
- target
- similarity
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 15
- 239000013598 vector Substances 0.000 claims abstract description 215
- 239000000463 material Substances 0.000 claims abstract description 72
- 238000000034 method Methods 0.000 claims description 39
- 238000001914 filtration Methods 0.000 claims description 18
- 241000208340 Araliaceae Species 0.000 claims description 2
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 claims description 2
- 235000003140 Panax quinquefolius Nutrition 0.000 claims description 2
- 235000008434 ginseng Nutrition 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 5
- 238000003058 natural language processing Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 235000013399 edible fruits Nutrition 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000009849 deactivation Effects 0.000 description 1
- 238000004821 distillation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
Claims (10)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410751278.2A CN104462378B (zh) | 2014-12-09 | 2014-12-09 | 用于文本识别的数据处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410751278.2A CN104462378B (zh) | 2014-12-09 | 2014-12-09 | 用于文本识别的数据处理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104462378A CN104462378A (zh) | 2015-03-25 |
CN104462378B true CN104462378B (zh) | 2017-11-21 |
Family
ID=52908413
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410751278.2A Active CN104462378B (zh) | 2014-12-09 | 2014-12-09 | 用于文本识别的数据处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104462378B (zh) |
Families Citing this family (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104751354B (zh) * | 2015-04-13 | 2018-06-26 | 合一信息技术(北京)有限公司 | 一种广告人群筛选方法 |
CN105261362B (zh) * | 2015-09-07 | 2019-07-05 | 科大讯飞股份有限公司 | 一种通话语音监测方法及系统 |
CN105100353B (zh) * | 2015-09-08 | 2017-11-14 | 陈包容 | 一种对移动终端的新增联系人进行通讯录分组的方法 |
CN105245680A (zh) * | 2015-09-09 | 2016-01-13 | 陈包容 | 对移动终端的新增联系人进行通讯录分组的方法及装置 |
CN105262875A (zh) * | 2015-09-09 | 2016-01-20 | 陈包容 | 对移动终端的新增联系人进行通讯录分组的方法及装置 |
CN105681523A (zh) * | 2016-03-03 | 2016-06-15 | 陈包容 | 一种自动发送生日祝福短信的方法及装置 |
CN106021272B (zh) * | 2016-04-04 | 2019-11-19 | 上海大学 | 基于分布式表达词向量计算的关键词自动提取方法 |
CN107291774B (zh) * | 2016-04-11 | 2020-02-07 | 北京京东尚科信息技术有限公司 | 错误样本识别方法和装置 |
CN106547740A (zh) * | 2016-11-24 | 2017-03-29 | 四川无声信息技术有限公司 | 文本信息处理方法及装置 |
CN108133045B (zh) * | 2018-01-12 | 2020-07-24 | 广州杰赛科技股份有限公司 | 关键词提取方法与系统、关键词提取模型生成方法与系统 |
CN108304387B (zh) * | 2018-03-09 | 2021-06-15 | 联想(北京)有限公司 | 文本中噪音词的识别方法、装置、服务器组及存储介质 |
CN108874921A (zh) * | 2018-05-30 | 2018-11-23 | 广州杰赛科技股份有限公司 | 提取文本特征词的方法、装置、终端设备及存储介质 |
CN109241269B (zh) * | 2018-07-27 | 2020-07-17 | 深圳追一科技有限公司 | 任务型机器人词槽填充方法 |
CN110827811A (zh) * | 2018-08-13 | 2020-02-21 | 格力电器(武汉)有限公司 | 家电设备的语音控制方法及装置 |
CN110991161B (zh) * | 2018-09-30 | 2023-04-18 | 北京国双科技有限公司 | 相似文本确定方法、神经网络模型获得方法及相关装置 |
CN109657227A (zh) * | 2018-10-08 | 2019-04-19 | 平安科技(深圳)有限公司 | 合同可行性判定方法、设备、存储介质及装置 |
CN109582790A (zh) * | 2018-11-13 | 2019-04-05 | 深圳市康拓普信息技术有限公司 | 一种基于名称高效核对不同系统中的电力设备的方法及装置 |
CN111401099B (zh) * | 2018-12-28 | 2023-04-07 | 中国电信股份有限公司 | 文本识别方法、装置以及存储介质 |
CN111738009B (zh) * | 2019-03-19 | 2023-10-20 | 百度在线网络技术(北京)有限公司 | 实体词标签生成方法、装置、计算机设备和可读存储介质 |
CN110795936B (zh) * | 2019-08-14 | 2023-09-22 | 腾讯科技(深圳)有限公司 | 词向量的获取方法和装置、存储介质及电子装置 |
CN110851602A (zh) * | 2019-11-13 | 2020-02-28 | 精硕科技(北京)股份有限公司 | 一种主题聚类的方法及装置 |
CN110956033A (zh) * | 2019-12-04 | 2020-04-03 | 北京中电普华信息技术有限公司 | 一种文本相似度计算方法及装置 |
CN111104418B (zh) * | 2019-12-23 | 2023-08-29 | 北京百度网讯科技有限公司 | 文本描述的处理方法、装置和电子设备 |
CN111753541B (zh) * | 2020-06-24 | 2023-08-15 | 云南电网有限责任公司信息中心 | 一种对于合同文本数据进行自然语言处理nlp的方法及系统 |
CN113221557A (zh) * | 2021-05-28 | 2021-08-06 | 中国工商银行股份有限公司 | 一种基于神经网络的数据贯标管理方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102955774A (zh) * | 2012-05-30 | 2013-03-06 | 华东师范大学 | 一种计算中文词语语义相似度的控制方法以及装置 |
CN103226576A (zh) * | 2013-04-01 | 2013-07-31 | 杭州电子科技大学 | 基于语义相似度的垃圾评论过滤方法 |
CN103530281A (zh) * | 2013-10-15 | 2014-01-22 | 苏州大学 | 一种论元抽取方法和系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7720675B2 (en) * | 2003-10-27 | 2010-05-18 | Educational Testing Service | Method and system for determining text coherence |
-
2014
- 2014-12-09 CN CN201410751278.2A patent/CN104462378B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102955774A (zh) * | 2012-05-30 | 2013-03-06 | 华东师范大学 | 一种计算中文词语语义相似度的控制方法以及装置 |
CN103226576A (zh) * | 2013-04-01 | 2013-07-31 | 杭州电子科技大学 | 基于语义相似度的垃圾评论过滤方法 |
CN103530281A (zh) * | 2013-10-15 | 2014-01-22 | 苏州大学 | 一种论元抽取方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN104462378A (zh) | 2015-03-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104462378B (zh) | 用于文本识别的数据处理方法及装置 | |
CN106649260B (zh) | 基于评论文本挖掘的产品特征结构树构建方法 | |
CN108197117B (zh) | 一种基于文档主题结构与语义的中文文本关键词提取方法 | |
CN106528532B (zh) | 文本纠错方法、装置及终端 | |
CN102866989B (zh) | 基于词语依存关系的观点抽取方法 | |
CN103514183B (zh) | 基于交互式文档聚类的信息检索方法及系统 | |
CN106445998A (zh) | 一种基于敏感词的文本内容审核方法及系统 | |
CN109299280B (zh) | 短文本聚类分析方法、装置和终端设备 | |
CN106776562A (zh) | 一种关键词提取方法和提取系统 | |
CN107153658A (zh) | 一种基于关键字加权算法的舆情热词发现方法 | |
CN109376352B (zh) | 一种基于word2vec和语义相似度的专利文本建模方法 | |
CN110502642B (zh) | 一种基于依存句法分析与规则的实体关系抽取方法 | |
Vani et al. | Using K-means cluster based techniques in external plagiarism detection | |
CN103678275A (zh) | 一种基于主客观语义的双层次文本相似度计算方法 | |
CN108763348A (zh) | 一种扩展短文本词特征向量的分类改进方法 | |
CN105550168A (zh) | 一种确定对象的概念词的方法和装置 | |
CN105095430A (zh) | 构建词语网络及抽取关键词的方法和装置 | |
CN101968801A (zh) | 一种单篇文本关键词的提取方法 | |
CN105760462A (zh) | 基于关联数据查询的人机交互方法及装置 | |
CN102937994A (zh) | 一种基于停用词的相似文档查询方法 | |
CN108108346A (zh) | 文档的主题特征词抽取方法及装置 | |
Takase et al. | Fast and large-scale unsupervised relation extraction | |
WO2014002774A1 (ja) | 同義語抽出システム、方法および記録媒体 | |
CN114997288A (zh) | 一种设计资源关联方法 | |
Vetriselvi et al. | RETRACTED ARTICLE: An improved key term weightage algorithm for text summarization using local context information and fuzzy graph sentence score |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right |
Denomination of invention: Data processing method and device for text recognition Effective date of registration: 20190531 Granted publication date: 20171121 Pledgee: Shenzhen Black Horse World Investment Consulting Co.,Ltd. Pledgor: BEIJING GRIDSUM TECHNOLOGY Co.,Ltd. Registration number: 2019990000503 |
|
CP02 | Change in the address of a patent holder | ||
CP02 | Change in the address of a patent holder |
Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing Patentee after: BEIJING GRIDSUM TECHNOLOGY Co.,Ltd. Address before: 100086 Beijing city Haidian District Shuangyushu Area No. 76 Zhichun Road cuigongfandian 8 layer A Patentee before: BEIJING GRIDSUM TECHNOLOGY Co.,Ltd. |
|
PP01 | Preservation of patent right | ||
PP01 | Preservation of patent right |
Effective date of registration: 20240604 Granted publication date: 20171121 |