CN101287229A - 应用于手机短信查询的自然语言处理技术及装置 - Google Patents

应用于手机短信查询的自然语言处理技术及装置 Download PDF

Info

Publication number
CN101287229A
CN101287229A CNA2008101126092A CN200810112609A CN101287229A CN 101287229 A CN101287229 A CN 101287229A CN A2008101126092 A CNA2008101126092 A CN A2008101126092A CN 200810112609 A CN200810112609 A CN 200810112609A CN 101287229 A CN101287229 A CN 101287229A
Authority
CN
China
Prior art keywords
natural language
entity
speech
language processing
processing technique
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2008101126092A
Other languages
English (en)
Inventor
赵楠
张皖
胡啸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ROADINFO SYSTEMS CO Ltd
Original Assignee
ROADINFO SYSTEMS CO Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ROADINFO SYSTEMS CO Ltd filed Critical ROADINFO SYSTEMS CO Ltd
Priority to CNA2008101126092A priority Critical patent/CN101287229A/zh
Publication of CN101287229A publication Critical patent/CN101287229A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种应用于手机短信查询的自然语言处理技术及装置,包含:1)将自然语言文本分割成常用词;2)将常用词标注词性特征,并根据句法特征对查询语句进行分类;3)将属于交通信息的自然语言文本挑选出;4)识别出可能的领域实体;5)识别出正确的实体的词和可能是实体的词串。本发明的优点在于:将自然语言处理技术应用在短信查询平台上,用户不用记住复杂的输入格式,和平时输入短信方法类似,使用更加的人性化。通过本发明,用户自然语言输入的查询语句,变成了系统能理解的,由系统所掌握的地理实体词构成的一个联合查询,便于后面的地理导航系统的进一步处理。

Description

应用于手机短信查询的自然语言处理技术及装置
技术领域
本发明属于手机扩展功能技术领域,特别涉及一种应用于手机短信查询的自然语言处理技术及装置。
背景技术
目前在短信上的应用服务由于不具备自然语言处理技术,只能是简单的定制服务等,用户需要学会发送代码等特定信息才能进行简单的应用。而对于搜索和路径这种用户需求复杂的应用,这种方式远远不能满足要求,还会因为繁琐的操作步骤造成不好的用户体验。
手机用户的一个特点为手机输入法带来的输入的错误率较高的问题,目前手机上输入方法大部分为拼音输入,而且在词组数量、易用性方面远远不如电脑上的输入法,这就造成很多用户在输入的时候因为操作失误或者为了快捷,使用音似的错别字或词。如经常可以发现类似这样的短信“直到(知道)到东直门怎么走不?”。在本地搜索和路况导航的应用中,这种情况出现的更多,因为大部分的地名、路名都不在输入法的词库中,用户为了方便往往用常用的音似词组代替,在很多情况下,用户甚至也不知道某个地名、路名的正确写法,只是知道读音,而且路名、地名中有较多的生僻字,用户不知道如何输入,只能用音似字或形似字代替。如“海龙大厦”,用户可能会输入成“海隆大厦”。“婺源”用户可能会输入成“无缘”或者“蝥源”。在系统层面上,传统的短信查询系统采用基于关键字或者基于指令的搜索技术,给用户带来了很大的不便,而上述过程在应用层面上很好的解决了这个问题。
发明内容
本发明的目的在于,使手机用户能够通过自然语言文本的输入,获得需要代码查询才能得到的相同交通信息。
为了实现上述目的,本发明提供了一种应用于手机短信查询的自然语言处理技术,首先,手机用户输入自然语言文本查询语句,然后,本发明的技术包含:步骤一:将自然语言文本分割成常用词;
步骤二:将常用词标注词性特征,并根据句法特征对查询语句进行分类;步骤三:将属于交通信息的自然语言文本挑选出;步骤四:识别出可能的领域实体;步骤五:识别出正确的实体的词和可能是实体的词串。
一种自然语言处理技术,所述步骤一进一步包含:借助常用词词典将自然语言文本分割成常用词。
一种自然语言处理技术,所述步骤二进一步包含:借助词性特征词典,将常用词标注词性特征。
一种自然语言处理技术,所述步骤三进一步包含:借助领域特征词典及领域问法特征词典,将属于交通信息的自然语言文本挑选出。
一种自然语言处理技术,所述步骤四进一步包含:借助领域相关实体词典,识别出可能的领域实体。
一种自然语言处理技术,所述步骤五进一步包含:借助POI实体词典,识别出正确的实体的词和可能是实体的词串。
本发明还提供一种应用于手机短信查询的自然语言处理装置,包含:将自然语言文本分割成常用词的分词模块;将常用词标注词性特征的词性标注模块;结合语义特征及问法特征,将自然语言查询语句分发到相关领域的问句领域识别模块;识别出可能的领域实体的实体识别模块;识别出正确的实体的词和可能是实体的词串的实体匹配模块。
本发明提供的技术方案的有益效果是:本发明将自然语言处理技术应用在短信查询平台上,用户不用记住复杂的输入格式,和平时输入短信方法类似,使用更加的人性化。通过本发明,用户自然语言输入的查询语句,变成了系统能理解的,由系统所掌握的地理实体词构成的一个联合查询,便于后面的地理导航系统的进一步处理。
附图说明
图1为本发明的自然语言处理技术流程图;
图2为本发明的拼音纠错技术流程图;
图3为本发明的自然语言处理装置结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
图1为本发明的自然语言处理技术流程图。本发明提供一种应用于手机短信查询的自然语言处理技术。如图1所示,首先,手机用户输入自然语言文本查询语句(步骤S101),如“从机场到海隆大厦怎么走?”分词模块进行处理,借助常用词词典将自然语言文本分割成常用词(步骤S102),该句被分割为“从/机场/到/海/隆/大厦/怎么/走/?/”。然后,文本被发送到词性标注模块,该模块借助词性词典及特征词典,将常用词标注词性及特征(步骤S103),如“机场”被标注为“通用地名”,“到”被标注为动词,通过这样的步骤,我们可以理解句子的结构,如主谓宾等;利用句法特征和常用词特征辅助对查询语句的分类。再通过问句领域识别模块,借助领域特征词典及领域问法特征词典,将属于“交通信息”的自然语言文本分发到实体识别模块,这个步骤需要结合疑问词特征,如是否包含“哪里”、“怎么”,动词特征,如“走”“到”“去”,以及常用词领域特征,如“通用地名”、“常用人名”等,理解查询语句中的简单语义,根据语义特征对文本进行分类(步骤S104)。将属于“交通信息”的文本发送到实体识别模块,借助领域相关实体词典,识别出可能的领域实体(步骤S105)。上述问题中的“机场”、“海隆大厦”被识别出。之后,在实体匹配模块中进行实体匹配,利用POI实体词典,识别出正确的实体的词和可能是实体的词串(步骤S106),经过此步,所有地名和可能的地名实体都被识别,如“王府井”,“东四环”。
图2为本发明的拼音纠错技术流程图。对可能是实体的词串进行拼音纠错。由于手机输入法常常是简单的拼音输入法,容易出现同音或近音错别字,如“中观村”,“海隆大厦”等,我们利用同音实体纠错模块查找可能实体的同音实体进行纠错(步骤S201)。这一步的输出为经纠错的实体匹配结果,上述“海隆大厦”被转换为“海龙大厦”。同时考虑各地口音特点,再通过模糊音纠错模块,加入了基于模糊音的纠错,如“f”和“h”等(步骤S202)。再后,通过缩写纠错模块添加形似缩写实体匹配结果,即将缩写形似的词匹配成正确的实体词(步骤S203)。上述“机场”映射成“首都机场”。最后,所有匹配实体被输出。
如图3所示,本发明还提供一种应用于手机短信查询的自然语言处理装置,包含:分词模块1,用于将自然语言文本分割成常用词;词性标注模块2,用于将常用词标注词性及特征;问句领域识别模块3,结合语义特征及问法特征,将自然语言查询语句分发到相关领域;实体识别模块4,识别出可能的领域实体;实体匹配模块5,识别出正确的实体的词和可能是实体的词串。
以上仅为本发明的典型实例而已,并非用来限定本发明的实施范围。即凡依照本发明申请专利范围所作的均等变化与修饰,皆为本发明专利范围所覆盖。

Claims (7)

1、一种应用于手机短信查询的自然语言处理技术,手机用户输入自然语言文本查询语句,其特征在于,包含:
步骤一:将自然语言文本分割成常用词;
步骤二:将常用词标注词性特征,并根据句法特征对查询语句进行分类;
步骤三:将属于交通信息的自然语言文本挑选出;
步骤四:识别出可能的领域实体;
步骤五:识别出正确的实体的词和可能是实体的词串。
2、根据权利要求1所述的一种自然语言处理技术,其特征在于,所述步骤一进一步包含:借助常用词词典将自然语言文本分割成常用词。
3、根据权利要求1所述的一种自然语言处理技术,其特征在于,所述步骤二进一步包含:借助词性特征词典,将常用词标注词性特征。
4、根据权利要求1所述的一种自然语言处理技术,其特征在于,所述步骤三进一步包含:借助领域特征词典及领域问法特征词典,将属于交通信息的自然语言文本挑选出。
5、根据权利要求1所述的一种自然语言处理技术,其特征在于,所述步骤四进一步包含;借助领域相关实体词典,识别出可能的领域实体。
6、根据权利要求1所述的一种自然语言处理技术,其特征在于,所述步骤五进一步包含:借助POI实体词典,识别出正确的实体的词和可能是实体的词串。
7、一种应用于手机短信查询的自然语言处理装置,其特征在于,包含:
将自然语言文本分割成常用词的分词模块;
将常用词标注词性特征的词性标注模块;
结合语义特征及问法特征,将自然语言查询语句分发到相关领域的问句领域识别模块;
识别出可能的领域实体的实体识别模块;
识别出正确的实体的词和可能是实体的词串的实体匹配模块。
CNA2008101126092A 2008-05-26 2008-05-26 应用于手机短信查询的自然语言处理技术及装置 Pending CN101287229A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNA2008101126092A CN101287229A (zh) 2008-05-26 2008-05-26 应用于手机短信查询的自然语言处理技术及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNA2008101126092A CN101287229A (zh) 2008-05-26 2008-05-26 应用于手机短信查询的自然语言处理技术及装置

Publications (1)

Publication Number Publication Date
CN101287229A true CN101287229A (zh) 2008-10-15

Family

ID=40059147

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2008101126092A Pending CN101287229A (zh) 2008-05-26 2008-05-26 应用于手机短信查询的自然语言处理技术及装置

Country Status (1)

Country Link
CN (1) CN101287229A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102411597A (zh) * 2011-07-28 2012-04-11 北京百度网讯科技有限公司 用于提供与查询序列对应的交通信息结果的设备和方法
CN101710333B (zh) * 2009-11-26 2012-07-04 西北工业大学 基于遗传算法的网络文本分割方法
CN103077164A (zh) * 2012-12-27 2013-05-01 新浪网技术(中国)有限公司 文本分析方法及文本分析器
CN103176953A (zh) * 2013-03-20 2013-06-26 新浪网技术(中国)有限公司 一种文本处理方法及系统
CN104182463A (zh) * 2014-07-21 2014-12-03 安徽华贞信息科技有限公司 一种基于语义的文本分类方法
CN104657463A (zh) * 2015-02-10 2015-05-27 乐娟 应用于自动问答系统的问句分类方法及装置
CN105224522A (zh) * 2015-09-29 2016-01-06 小米科技有限责任公司 地理位置信息识别方法及装置
CN105760359A (zh) * 2014-11-21 2016-07-13 财团法人工业技术研究院 问句处理系统及其方法
CN106782516A (zh) * 2016-11-17 2017-05-31 北京云知声信息技术有限公司 语料分类方法及装置
CN107221328A (zh) * 2017-05-25 2017-09-29 百度在线网络技术(北京)有限公司 修改源的定位方法及装置、计算机设备及可读介质
CN110674264A (zh) * 2018-06-08 2020-01-10 北京国双科技有限公司 实体归一化方法及装置

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101710333B (zh) * 2009-11-26 2012-07-04 西北工业大学 基于遗传算法的网络文本分割方法
CN102411597A (zh) * 2011-07-28 2012-04-11 北京百度网讯科技有限公司 用于提供与查询序列对应的交通信息结果的设备和方法
CN103077164A (zh) * 2012-12-27 2013-05-01 新浪网技术(中国)有限公司 文本分析方法及文本分析器
CN103077164B (zh) * 2012-12-27 2016-05-11 新浪网技术(中国)有限公司 文本分析方法及文本分析器
CN103176953A (zh) * 2013-03-20 2013-06-26 新浪网技术(中国)有限公司 一种文本处理方法及系统
CN104182463A (zh) * 2014-07-21 2014-12-03 安徽华贞信息科技有限公司 一种基于语义的文本分类方法
CN105760359A (zh) * 2014-11-21 2016-07-13 财团法人工业技术研究院 问句处理系统及其方法
CN104657463B (zh) * 2015-02-10 2018-04-27 乐娟 应用于自动问答系统的问句分类方法及装置
CN104657463A (zh) * 2015-02-10 2015-05-27 乐娟 应用于自动问答系统的问句分类方法及装置
CN105224522A (zh) * 2015-09-29 2016-01-06 小米科技有限责任公司 地理位置信息识别方法及装置
CN106782516A (zh) * 2016-11-17 2017-05-31 北京云知声信息技术有限公司 语料分类方法及装置
CN106782516B (zh) * 2016-11-17 2020-02-07 北京云知声信息技术有限公司 语料分类方法及装置
CN107221328A (zh) * 2017-05-25 2017-09-29 百度在线网络技术(北京)有限公司 修改源的定位方法及装置、计算机设备及可读介质
CN110674264A (zh) * 2018-06-08 2020-01-10 北京国双科技有限公司 实体归一化方法及装置

Similar Documents

Publication Publication Date Title
CN101287229A (zh) 应用于手机短信查询的自然语言处理技术及装置
US11817101B2 (en) Speech recognition using phoneme matching
US10073843B1 (en) Method and apparatus for cross-lingual communication
US9317501B2 (en) Data security system for natural language translation
US8290775B2 (en) Pronunciation correction of text-to-speech systems between different spoken languages
De Melo Lexvo. org: Language-related information for the linguistic linked data cloud
EP2571023B1 (en) Machine translation-based multilingual human-machine dialog
CN101923858B (zh) 一种实时同步互译语音终端
US20090326945A1 (en) Methods, apparatuses, and computer program products for providing a mixed language entry speech dictation system
US20050154580A1 (en) Automated grammar generator (AGG)
KR100792208B1 (ko) 음성 대화 시스템에서 답변 문장 생성 방법 및 장치
US20080215519A1 (en) Method and data processing system for the controlled query of structured saved information
MXPA04001729A (es) Metodos y sistemas para traduccion de idiomas.
US20150081294A1 (en) Speech recognition for user specific language
KR20130123037A (ko) 양방향 자동 통역 및 번역 서비스 제공 장치 및 그 방법
WO2006106415A1 (en) Method, device, and computer program product for multi-lingual speech recognition
CN110942767B (zh) 一种asr语言模型识别标注与优化方法及其装置
KR20080052382A (ko) 대화형 정보 제공 서비스 장치 및 방법
CN101287228A (zh) 应用于手机短信查询的拼音纠错技术及装置
Hui et al. Latent semantic analysis for multimodal user input with speech and gestures
US8401855B2 (en) System and method for generating data for complex statistical modeling for use in dialog systems
Rosso et al. On the voice-activated question answering
EP2261818A1 (en) A method for inter-lingual electronic communication
JP5300576B2 (ja) 検索装置、検索方法、および検索プログラム
JP2004145732A (ja) 音声識別支援漢字入力システムおよび方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
DD01 Delivery of document by public notice

Addressee: Roadinfo Systems Co., Ltd.

Document name: Notification of before Expiration of Request of Examination as to Substance

DD01 Delivery of document by public notice

Addressee: Wang Weifeng

Document name: Notification that Application Deemed to be Withdrawn

C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Open date: 20081015