CN103544309A - 一种中文垂直搜索的检索串拆分方法 - Google Patents
一种中文垂直搜索的检索串拆分方法 Download PDFInfo
- Publication number
- CN103544309A CN103544309A CN201310538096.2A CN201310538096A CN103544309A CN 103544309 A CN103544309 A CN 103544309A CN 201310538096 A CN201310538096 A CN 201310538096A CN 103544309 A CN103544309 A CN 103544309A
- Authority
- CN
- China
- Prior art keywords
- retrieval string
- phrase
- chinese
- splitting
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Abstract
Description
Claims (9)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310538096.2A CN103544309B (zh) | 2013-11-04 | 2013-11-04 | 一种中文垂直搜索的检索串拆分方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310538096.2A CN103544309B (zh) | 2013-11-04 | 2013-11-04 | 一种中文垂直搜索的检索串拆分方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103544309A true CN103544309A (zh) | 2014-01-29 |
CN103544309B CN103544309B (zh) | 2017-03-15 |
Family
ID=49967761
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310538096.2A Expired - Fee Related CN103544309B (zh) | 2013-11-04 | 2013-11-04 | 一种中文垂直搜索的检索串拆分方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103544309B (zh) |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105653553A (zh) * | 2014-11-14 | 2016-06-08 | 腾讯科技(深圳)有限公司 | 词权重生成方法和装置 |
CN105975454A (zh) * | 2016-04-21 | 2016-09-28 | 广州精点计算机科技有限公司 | 一种网页文本的中文分词方法和装置 |
CN103823857B (zh) * | 2014-02-21 | 2017-02-01 | 浙江大学 | 基于自然语言处理的空间信息检索方法 |
CN106649312A (zh) * | 2015-10-29 | 2017-05-10 | 北京北方微电子基地设备工艺研究中心有限责任公司 | 日志文件的分析方法和系统 |
CN106777250A (zh) * | 2016-12-27 | 2017-05-31 | 努比亚技术有限公司 | 一种分词结果选择方法和装置 |
CN107423288A (zh) * | 2017-07-05 | 2017-12-01 | 达而观信息科技(上海)有限公司 | 一种基于无监督学习的中文分词系统及方法 |
WO2018059302A1 (zh) * | 2016-09-29 | 2018-04-05 | 腾讯科技(深圳)有限公司 | 文本识别方法、装置及存储介质 |
CN108694229A (zh) * | 2017-04-10 | 2018-10-23 | 富士通株式会社 | 串数据分析装置以及串数据分析方法 |
CN108694164A (zh) * | 2017-04-10 | 2018-10-23 | 普天信息技术有限公司 | 一种分词训练方法及装置 |
US10127219B2 (en) | 2016-12-09 | 2018-11-13 | Hong Kong Applied Science and Technoloy Research Institute Company Limited | System and method for organizing and processing feature based data structures |
WO2019023911A1 (en) * | 2017-07-31 | 2019-02-07 | Beijing Didi Infinity Technology And Development Co., Ltd. | SYSTEM AND METHOD FOR TEXT SEGMENTATION |
CN110210034A (zh) * | 2019-05-31 | 2019-09-06 | 腾讯科技(深圳)有限公司 | 信息查询方法、装置、终端及存储介质 |
CN110322870A (zh) * | 2019-06-19 | 2019-10-11 | 北京信息职业技术学院 | 一种汉语语音信号切分方法和装置 |
CN110945514A (zh) * | 2017-07-31 | 2020-03-31 | 北京嘀嘀无限科技发展有限公司 | 用于分割句子的系统和方法 |
CN117592474A (zh) * | 2024-01-18 | 2024-02-23 | 武汉杏仁桉科技有限公司 | 一种多中文词组的拆分处理方法及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101950284A (zh) * | 2010-09-27 | 2011-01-19 | 北京新媒传信科技有限公司 | 中文分词方法及系统 |
US20120290290A1 (en) * | 2011-05-12 | 2012-11-15 | Microsoft Corporation | Sentence Simplification for Spoken Language Understanding |
CN102915299A (zh) * | 2012-10-23 | 2013-02-06 | 海信集团有限公司 | 一种分词方法及装置 |
CN102999534A (zh) * | 2011-09-19 | 2013-03-27 | 北京金和软件股份有限公司 | 一种基于逆向最大匹配的中文分词算法 |
CN103226546A (zh) * | 2013-04-15 | 2013-07-31 | 北京邮电大学 | 一种基于分词和词性分析的后缀树聚类方法 |
CN103257957A (zh) * | 2012-02-15 | 2013-08-21 | 深圳市腾讯计算机系统有限公司 | 一种基于中文分词的文本相似性识别方法及装置 |
-
2013
- 2013-11-04 CN CN201310538096.2A patent/CN103544309B/zh not_active Expired - Fee Related
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101950284A (zh) * | 2010-09-27 | 2011-01-19 | 北京新媒传信科技有限公司 | 中文分词方法及系统 |
US20120290290A1 (en) * | 2011-05-12 | 2012-11-15 | Microsoft Corporation | Sentence Simplification for Spoken Language Understanding |
CN102999534A (zh) * | 2011-09-19 | 2013-03-27 | 北京金和软件股份有限公司 | 一种基于逆向最大匹配的中文分词算法 |
CN103257957A (zh) * | 2012-02-15 | 2013-08-21 | 深圳市腾讯计算机系统有限公司 | 一种基于中文分词的文本相似性识别方法及装置 |
CN102915299A (zh) * | 2012-10-23 | 2013-02-06 | 海信集团有限公司 | 一种分词方法及装置 |
CN103226546A (zh) * | 2013-04-15 | 2013-07-31 | 北京邮电大学 | 一种基于分词和词性分析的后缀树聚类方法 |
Cited By (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103823857B (zh) * | 2014-02-21 | 2017-02-01 | 浙江大学 | 基于自然语言处理的空间信息检索方法 |
CN105653553B (zh) * | 2014-11-14 | 2020-04-03 | 腾讯科技(深圳)有限公司 | 词权重生成方法和装置 |
CN105653553A (zh) * | 2014-11-14 | 2016-06-08 | 腾讯科技(深圳)有限公司 | 词权重生成方法和装置 |
CN106649312A (zh) * | 2015-10-29 | 2017-05-10 | 北京北方微电子基地设备工艺研究中心有限责任公司 | 日志文件的分析方法和系统 |
CN106649312B (zh) * | 2015-10-29 | 2019-10-29 | 北京北方华创微电子装备有限公司 | 日志文件的分析方法和系统 |
CN105975454A (zh) * | 2016-04-21 | 2016-09-28 | 广州精点计算机科技有限公司 | 一种网页文本的中文分词方法和装置 |
WO2018059302A1 (zh) * | 2016-09-29 | 2018-04-05 | 腾讯科技(深圳)有限公司 | 文本识别方法、装置及存储介质 |
US11068655B2 (en) | 2016-09-29 | 2021-07-20 | Tencent Technology (Shenzhen) Company Limited | Text recognition based on training of models at a plurality of training nodes |
US10127219B2 (en) | 2016-12-09 | 2018-11-13 | Hong Kong Applied Science and Technoloy Research Institute Company Limited | System and method for organizing and processing feature based data structures |
CN106777250B (zh) * | 2016-12-27 | 2020-06-02 | 广州市交互式信息网络有限公司 | 一种分词结果选择方法和装置 |
CN106777250A (zh) * | 2016-12-27 | 2017-05-31 | 努比亚技术有限公司 | 一种分词结果选择方法和装置 |
CN108694229A (zh) * | 2017-04-10 | 2018-10-23 | 富士通株式会社 | 串数据分析装置以及串数据分析方法 |
CN108694164A (zh) * | 2017-04-10 | 2018-10-23 | 普天信息技术有限公司 | 一种分词训练方法及装置 |
CN108694229B (zh) * | 2017-04-10 | 2022-06-03 | 富士通株式会社 | 串数据分析装置以及串数据分析方法 |
CN107423288A (zh) * | 2017-07-05 | 2017-12-01 | 达而观信息科技(上海)有限公司 | 一种基于无监督学习的中文分词系统及方法 |
CN110945514A (zh) * | 2017-07-31 | 2020-03-31 | 北京嘀嘀无限科技发展有限公司 | 用于分割句子的系统和方法 |
EP3642733A4 (en) * | 2017-07-31 | 2020-07-22 | Beijing Didi Infinity Technology and Development Co., Ltd. | SYSTEM AND PROCESS FOR SEGMENTING A SENTENCE |
TWI713870B (zh) * | 2017-07-31 | 2020-12-21 | 大陸商北京嘀嘀無限科技發展有限公司 | 用於分割文本的系統和方法 |
WO2019023911A1 (en) * | 2017-07-31 | 2019-02-07 | Beijing Didi Infinity Technology And Development Co., Ltd. | SYSTEM AND METHOD FOR TEXT SEGMENTATION |
US11132506B2 (en) | 2017-07-31 | 2021-09-28 | Beijing Didi Infinity Technology And Development Co., Ltd. | System and method for segmenting a sentence |
CN110945514B (zh) * | 2017-07-31 | 2023-08-25 | 北京嘀嘀无限科技发展有限公司 | 用于分割句子的系统和方法 |
CN110210034A (zh) * | 2019-05-31 | 2019-09-06 | 腾讯科技(深圳)有限公司 | 信息查询方法、装置、终端及存储介质 |
CN110210034B (zh) * | 2019-05-31 | 2024-05-14 | 腾讯科技(深圳)有限公司 | 信息查询方法、装置、终端及存储介质 |
CN110322870A (zh) * | 2019-06-19 | 2019-10-11 | 北京信息职业技术学院 | 一种汉语语音信号切分方法和装置 |
CN110322870B (zh) * | 2019-06-19 | 2020-10-30 | 北京信息职业技术学院 | 一种汉语语音信号切分方法和装置 |
CN117592474A (zh) * | 2024-01-18 | 2024-02-23 | 武汉杏仁桉科技有限公司 | 一种多中文词组的拆分处理方法及装置 |
CN117592474B (zh) * | 2024-01-18 | 2024-04-30 | 武汉杏仁桉科技有限公司 | 一种多中文词组的拆分处理方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN103544309B (zh) | 2017-03-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103544309A (zh) | 一种中文垂直搜索的检索串拆分方法 | |
CN106777274B (zh) | 一种中文旅游领域知识图谱构建方法及系统 | |
CN101539907B (zh) | 词性标注模型训练装置、词性标注系统及其方法 | |
CN114020862B (zh) | 一种面向煤矿安全规程的检索式智能问答系统及方法 | |
CN105975625A (zh) | 一种面向英文搜索引擎的中式英文查询纠错方法和系统 | |
CN110287481A (zh) | 命名实体语料标注训练系统 | |
CN107861939A (zh) | 一种融合词向量和主题模型的领域实体消歧方法 | |
CN110298032A (zh) | 文本分类语料标注训练系统 | |
Zhou et al. | Resolving surface forms to wikipedia topics | |
CN104778256B (zh) | 一种领域问答系统咨询的快速可增量聚类方法 | |
CN101866337A (zh) | 词性标注系统、用于训练词性标注模型的装置及其方法 | |
CN103823857B (zh) | 基于自然语言处理的空间信息检索方法 | |
CN106126620A (zh) | 基于机器学习的中文自动文摘方法 | |
CN102831131B (zh) | 构建标注网页语料库的方法及装置 | |
CN110781670B (zh) | 基于百科知识库和词向量的中文地名语义消歧方法 | |
CN104199965A (zh) | 一种语义信息检索方法 | |
CN103678271B (zh) | 一种文本校正方法及用户设备 | |
CN102214166A (zh) | 基于句法分析和层次模型的机器翻译系统和方法 | |
CN112328800A (zh) | 自动生成编程规范问题答案的系统及方法 | |
CN113360647B (zh) | 一种基于聚类的5g移动业务投诉溯源分析方法 | |
CN112883722B (zh) | 一种基于云数据中心分布式文本摘要方法 | |
CN102929864B (zh) | 一种音字转换方法及装置 | |
CN112036178A (zh) | 一种配网实体相关的语义搜索方法 | |
CN108021682A (zh) | 开放式信息抽取背景下一种基于维基百科的实体语义化方法 | |
CN112051986A (zh) | 基于开源知识的代码搜索推荐装置及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20170427 Address after: 100086 Beijing, Haidian District, North Third Ring Road West, No. 43, building 5, floor 08-09, No. 2 Patentee after: BEIJING ZHONGSOU CLOUD BUSINESS NETWORK TECHNOLOGY Co.,Ltd. Address before: Shou Heng Technology Building No. 51 Beijing 100191 Haidian District Xueyuan Road room 0902 Patentee before: BEIJING ZHONGSOU NETWORK TECHNOLOGY Co.,Ltd. |
|
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20170315 Termination date: 20211104 |