CN101287229A - 应用于手机短信查询的自然语言处理技术及装置 - Google Patents
应用于手机短信查询的自然语言处理技术及装置 Download PDFInfo
- Publication number
- CN101287229A CN101287229A CNA2008101126092A CN200810112609A CN101287229A CN 101287229 A CN101287229 A CN 101287229A CN A2008101126092 A CNA2008101126092 A CN A2008101126092A CN 200810112609 A CN200810112609 A CN 200810112609A CN 101287229 A CN101287229 A CN 101287229A
- Authority
- CN
- China
- Prior art keywords
- natural language
- entity
- speech
- language processing
- processing technique
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种应用于手机短信查询的自然语言处理技术及装置,包含:1)将自然语言文本分割成常用词;2)将常用词标注词性特征,并根据句法特征对查询语句进行分类;3)将属于交通信息的自然语言文本挑选出;4)识别出可能的领域实体;5)识别出正确的实体的词和可能是实体的词串。本发明的优点在于:将自然语言处理技术应用在短信查询平台上,用户不用记住复杂的输入格式,和平时输入短信方法类似,使用更加的人性化。通过本发明,用户自然语言输入的查询语句,变成了系统能理解的,由系统所掌握的地理实体词构成的一个联合查询,便于后面的地理导航系统的进一步处理。
Description
技术领域
本发明属于手机扩展功能技术领域,特别涉及一种应用于手机短信查询的自然语言处理技术及装置。
背景技术
目前在短信上的应用服务由于不具备自然语言处理技术,只能是简单的定制服务等,用户需要学会发送代码等特定信息才能进行简单的应用。而对于搜索和路径这种用户需求复杂的应用,这种方式远远不能满足要求,还会因为繁琐的操作步骤造成不好的用户体验。
手机用户的一个特点为手机输入法带来的输入的错误率较高的问题,目前手机上输入方法大部分为拼音输入,而且在词组数量、易用性方面远远不如电脑上的输入法,这就造成很多用户在输入的时候因为操作失误或者为了快捷,使用音似的错别字或词。如经常可以发现类似这样的短信“直到(知道)到东直门怎么走不?”。在本地搜索和路况导航的应用中,这种情况出现的更多,因为大部分的地名、路名都不在输入法的词库中,用户为了方便往往用常用的音似词组代替,在很多情况下,用户甚至也不知道某个地名、路名的正确写法,只是知道读音,而且路名、地名中有较多的生僻字,用户不知道如何输入,只能用音似字或形似字代替。如“海龙大厦”,用户可能会输入成“海隆大厦”。“婺源”用户可能会输入成“无缘”或者“蝥源”。在系统层面上,传统的短信查询系统采用基于关键字或者基于指令的搜索技术,给用户带来了很大的不便,而上述过程在应用层面上很好的解决了这个问题。
发明内容
本发明的目的在于,使手机用户能够通过自然语言文本的输入,获得需要代码查询才能得到的相同交通信息。
为了实现上述目的,本发明提供了一种应用于手机短信查询的自然语言处理技术,首先,手机用户输入自然语言文本查询语句,然后,本发明的技术包含:步骤一:将自然语言文本分割成常用词;
步骤二:将常用词标注词性特征,并根据句法特征对查询语句进行分类;步骤三:将属于交通信息的自然语言文本挑选出;步骤四:识别出可能的领域实体;步骤五:识别出正确的实体的词和可能是实体的词串。
一种自然语言处理技术,所述步骤一进一步包含:借助常用词词典将自然语言文本分割成常用词。
一种自然语言处理技术,所述步骤二进一步包含:借助词性特征词典,将常用词标注词性特征。
一种自然语言处理技术,所述步骤三进一步包含:借助领域特征词典及领域问法特征词典,将属于交通信息的自然语言文本挑选出。
一种自然语言处理技术,所述步骤四进一步包含:借助领域相关实体词典,识别出可能的领域实体。
一种自然语言处理技术,所述步骤五进一步包含:借助POI实体词典,识别出正确的实体的词和可能是实体的词串。
本发明还提供一种应用于手机短信查询的自然语言处理装置,包含:将自然语言文本分割成常用词的分词模块;将常用词标注词性特征的词性标注模块;结合语义特征及问法特征,将自然语言查询语句分发到相关领域的问句领域识别模块;识别出可能的领域实体的实体识别模块;识别出正确的实体的词和可能是实体的词串的实体匹配模块。
本发明提供的技术方案的有益效果是:本发明将自然语言处理技术应用在短信查询平台上,用户不用记住复杂的输入格式,和平时输入短信方法类似,使用更加的人性化。通过本发明,用户自然语言输入的查询语句,变成了系统能理解的,由系统所掌握的地理实体词构成的一个联合查询,便于后面的地理导航系统的进一步处理。
附图说明
图1为本发明的自然语言处理技术流程图;
图2为本发明的拼音纠错技术流程图;
图3为本发明的自然语言处理装置结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
图1为本发明的自然语言处理技术流程图。本发明提供一种应用于手机短信查询的自然语言处理技术。如图1所示,首先,手机用户输入自然语言文本查询语句(步骤S101),如“从机场到海隆大厦怎么走?”分词模块进行处理,借助常用词词典将自然语言文本分割成常用词(步骤S102),该句被分割为“从/机场/到/海/隆/大厦/怎么/走/?/”。然后,文本被发送到词性标注模块,该模块借助词性词典及特征词典,将常用词标注词性及特征(步骤S103),如“机场”被标注为“通用地名”,“到”被标注为动词,通过这样的步骤,我们可以理解句子的结构,如主谓宾等;利用句法特征和常用词特征辅助对查询语句的分类。再通过问句领域识别模块,借助领域特征词典及领域问法特征词典,将属于“交通信息”的自然语言文本分发到实体识别模块,这个步骤需要结合疑问词特征,如是否包含“哪里”、“怎么”,动词特征,如“走”“到”“去”,以及常用词领域特征,如“通用地名”、“常用人名”等,理解查询语句中的简单语义,根据语义特征对文本进行分类(步骤S104)。将属于“交通信息”的文本发送到实体识别模块,借助领域相关实体词典,识别出可能的领域实体(步骤S105)。上述问题中的“机场”、“海隆大厦”被识别出。之后,在实体匹配模块中进行实体匹配,利用POI实体词典,识别出正确的实体的词和可能是实体的词串(步骤S106),经过此步,所有地名和可能的地名实体都被识别,如“王府井”,“东四环”。
图2为本发明的拼音纠错技术流程图。对可能是实体的词串进行拼音纠错。由于手机输入法常常是简单的拼音输入法,容易出现同音或近音错别字,如“中观村”,“海隆大厦”等,我们利用同音实体纠错模块查找可能实体的同音实体进行纠错(步骤S201)。这一步的输出为经纠错的实体匹配结果,上述“海隆大厦”被转换为“海龙大厦”。同时考虑各地口音特点,再通过模糊音纠错模块,加入了基于模糊音的纠错,如“f”和“h”等(步骤S202)。再后,通过缩写纠错模块添加形似缩写实体匹配结果,即将缩写形似的词匹配成正确的实体词(步骤S203)。上述“机场”映射成“首都机场”。最后,所有匹配实体被输出。
如图3所示,本发明还提供一种应用于手机短信查询的自然语言处理装置,包含:分词模块1,用于将自然语言文本分割成常用词;词性标注模块2,用于将常用词标注词性及特征;问句领域识别模块3,结合语义特征及问法特征,将自然语言查询语句分发到相关领域;实体识别模块4,识别出可能的领域实体;实体匹配模块5,识别出正确的实体的词和可能是实体的词串。
以上仅为本发明的典型实例而已,并非用来限定本发明的实施范围。即凡依照本发明申请专利范围所作的均等变化与修饰,皆为本发明专利范围所覆盖。
Claims (7)
1、一种应用于手机短信查询的自然语言处理技术,手机用户输入自然语言文本查询语句,其特征在于,包含:
步骤一:将自然语言文本分割成常用词;
步骤二:将常用词标注词性特征,并根据句法特征对查询语句进行分类;
步骤三:将属于交通信息的自然语言文本挑选出;
步骤四:识别出可能的领域实体;
步骤五:识别出正确的实体的词和可能是实体的词串。
2、根据权利要求1所述的一种自然语言处理技术,其特征在于,所述步骤一进一步包含:借助常用词词典将自然语言文本分割成常用词。
3、根据权利要求1所述的一种自然语言处理技术,其特征在于,所述步骤二进一步包含:借助词性特征词典,将常用词标注词性特征。
4、根据权利要求1所述的一种自然语言处理技术,其特征在于,所述步骤三进一步包含:借助领域特征词典及领域问法特征词典,将属于交通信息的自然语言文本挑选出。
5、根据权利要求1所述的一种自然语言处理技术,其特征在于,所述步骤四进一步包含;借助领域相关实体词典,识别出可能的领域实体。
6、根据权利要求1所述的一种自然语言处理技术,其特征在于,所述步骤五进一步包含:借助POI实体词典,识别出正确的实体的词和可能是实体的词串。
7、一种应用于手机短信查询的自然语言处理装置,其特征在于,包含:
将自然语言文本分割成常用词的分词模块;
将常用词标注词性特征的词性标注模块;
结合语义特征及问法特征,将自然语言查询语句分发到相关领域的问句领域识别模块;
识别出可能的领域实体的实体识别模块;
识别出正确的实体的词和可能是实体的词串的实体匹配模块。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNA2008101126092A CN101287229A (zh) | 2008-05-26 | 2008-05-26 | 应用于手机短信查询的自然语言处理技术及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNA2008101126092A CN101287229A (zh) | 2008-05-26 | 2008-05-26 | 应用于手机短信查询的自然语言处理技术及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101287229A true CN101287229A (zh) | 2008-10-15 |
Family
ID=40059147
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNA2008101126092A Pending CN101287229A (zh) | 2008-05-26 | 2008-05-26 | 应用于手机短信查询的自然语言处理技术及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101287229A (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102411597A (zh) * | 2011-07-28 | 2012-04-11 | 北京百度网讯科技有限公司 | 用于提供与查询序列对应的交通信息结果的设备和方法 |
CN101710333B (zh) * | 2009-11-26 | 2012-07-04 | 西北工业大学 | 基于遗传算法的网络文本分割方法 |
CN103077164A (zh) * | 2012-12-27 | 2013-05-01 | 新浪网技术(中国)有限公司 | 文本分析方法及文本分析器 |
CN103176953A (zh) * | 2013-03-20 | 2013-06-26 | 新浪网技术(中国)有限公司 | 一种文本处理方法及系统 |
CN104182463A (zh) * | 2014-07-21 | 2014-12-03 | 安徽华贞信息科技有限公司 | 一种基于语义的文本分类方法 |
CN104657463A (zh) * | 2015-02-10 | 2015-05-27 | 乐娟 | 应用于自动问答系统的问句分类方法及装置 |
CN105224522A (zh) * | 2015-09-29 | 2016-01-06 | 小米科技有限责任公司 | 地理位置信息识别方法及装置 |
CN105760359A (zh) * | 2014-11-21 | 2016-07-13 | 财团法人工业技术研究院 | 问句处理系统及其方法 |
CN106782516A (zh) * | 2016-11-17 | 2017-05-31 | 北京云知声信息技术有限公司 | 语料分类方法及装置 |
CN107221328A (zh) * | 2017-05-25 | 2017-09-29 | 百度在线网络技术(北京)有限公司 | 修改源的定位方法及装置、计算机设备及可读介质 |
CN110674264A (zh) * | 2018-06-08 | 2020-01-10 | 北京国双科技有限公司 | 实体归一化方法及装置 |
-
2008
- 2008-05-26 CN CNA2008101126092A patent/CN101287229A/zh active Pending
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101710333B (zh) * | 2009-11-26 | 2012-07-04 | 西北工业大学 | 基于遗传算法的网络文本分割方法 |
CN102411597A (zh) * | 2011-07-28 | 2012-04-11 | 北京百度网讯科技有限公司 | 用于提供与查询序列对应的交通信息结果的设备和方法 |
CN103077164A (zh) * | 2012-12-27 | 2013-05-01 | 新浪网技术(中国)有限公司 | 文本分析方法及文本分析器 |
CN103077164B (zh) * | 2012-12-27 | 2016-05-11 | 新浪网技术(中国)有限公司 | 文本分析方法及文本分析器 |
CN103176953A (zh) * | 2013-03-20 | 2013-06-26 | 新浪网技术(中国)有限公司 | 一种文本处理方法及系统 |
CN104182463A (zh) * | 2014-07-21 | 2014-12-03 | 安徽华贞信息科技有限公司 | 一种基于语义的文本分类方法 |
CN105760359A (zh) * | 2014-11-21 | 2016-07-13 | 财团法人工业技术研究院 | 问句处理系统及其方法 |
CN104657463B (zh) * | 2015-02-10 | 2018-04-27 | 乐娟 | 应用于自动问答系统的问句分类方法及装置 |
CN104657463A (zh) * | 2015-02-10 | 2015-05-27 | 乐娟 | 应用于自动问答系统的问句分类方法及装置 |
CN105224522A (zh) * | 2015-09-29 | 2016-01-06 | 小米科技有限责任公司 | 地理位置信息识别方法及装置 |
CN106782516A (zh) * | 2016-11-17 | 2017-05-31 | 北京云知声信息技术有限公司 | 语料分类方法及装置 |
CN106782516B (zh) * | 2016-11-17 | 2020-02-07 | 北京云知声信息技术有限公司 | 语料分类方法及装置 |
CN107221328A (zh) * | 2017-05-25 | 2017-09-29 | 百度在线网络技术(北京)有限公司 | 修改源的定位方法及装置、计算机设备及可读介质 |
CN110674264A (zh) * | 2018-06-08 | 2020-01-10 | 北京国双科技有限公司 | 实体归一化方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101287229A (zh) | 应用于手机短信查询的自然语言处理技术及装置 | |
US11817101B2 (en) | Speech recognition using phoneme matching | |
US10073843B1 (en) | Method and apparatus for cross-lingual communication | |
US9317501B2 (en) | Data security system for natural language translation | |
US8290775B2 (en) | Pronunciation correction of text-to-speech systems between different spoken languages | |
De Melo | Lexvo. org: Language-related information for the linguistic linked data cloud | |
EP2571023B1 (en) | Machine translation-based multilingual human-machine dialog | |
CN101923858B (zh) | 一种实时同步互译语音终端 | |
US20090326945A1 (en) | Methods, apparatuses, and computer program products for providing a mixed language entry speech dictation system | |
US20050154580A1 (en) | Automated grammar generator (AGG) | |
KR100792208B1 (ko) | 음성 대화 시스템에서 답변 문장 생성 방법 및 장치 | |
US20080215519A1 (en) | Method and data processing system for the controlled query of structured saved information | |
MXPA04001729A (es) | Metodos y sistemas para traduccion de idiomas. | |
US20150081294A1 (en) | Speech recognition for user specific language | |
KR20130123037A (ko) | 양방향 자동 통역 및 번역 서비스 제공 장치 및 그 방법 | |
WO2006106415A1 (en) | Method, device, and computer program product for multi-lingual speech recognition | |
CN110942767B (zh) | 一种asr语言模型识别标注与优化方法及其装置 | |
KR20080052382A (ko) | 대화형 정보 제공 서비스 장치 및 방법 | |
CN101287228A (zh) | 应用于手机短信查询的拼音纠错技术及装置 | |
Hui et al. | Latent semantic analysis for multimodal user input with speech and gestures | |
US8401855B2 (en) | System and method for generating data for complex statistical modeling for use in dialog systems | |
Rosso et al. | On the voice-activated question answering | |
EP2261818A1 (en) | A method for inter-lingual electronic communication | |
JP5300576B2 (ja) | 検索装置、検索方法、および検索プログラム | |
JP2004145732A (ja) | 音声識別支援漢字入力システムおよび方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
DD01 | Delivery of document by public notice |
Addressee: Roadinfo Systems Co., Ltd. Document name: Notification of before Expiration of Request of Examination as to Substance |
|
DD01 | Delivery of document by public notice |
Addressee: Wang Weifeng Document name: Notification that Application Deemed to be Withdrawn |
|
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Open date: 20081015 |