CN101404035A - 一种基于文本或语音的信息搜索方法 - Google Patents

一种基于文本或语音的信息搜索方法 Download PDF

Info

Publication number
CN101404035A
CN101404035A CNA2008102269479A CN200810226947A CN101404035A CN 101404035 A CN101404035 A CN 101404035A CN A2008102269479 A CNA2008102269479 A CN A2008102269479A CN 200810226947 A CN200810226947 A CN 200810226947A CN 101404035 A CN101404035 A CN 101404035A
Authority
CN
China
Prior art keywords
information
module
user
semantic
real
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2008102269479A
Other languages
English (en)
Inventor
邬晓钧
郑方
潘胜逖
苏保飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING D-EAR TECHNOLOGIES Co Ltd
Tsinghua University
Original Assignee
BEIJING D-EAR TECHNOLOGIES Co Ltd
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING D-EAR TECHNOLOGIES Co Ltd, Tsinghua University filed Critical BEIJING D-EAR TECHNOLOGIES Co Ltd
Priority to CNA2008102269479A priority Critical patent/CN101404035A/zh
Publication of CN101404035A publication Critical patent/CN101404035A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于文本或语音的信息搜索方法,属于网络信息查询技术领域。首先,用户将搜索目标以输入至语义分析模块,得到搜索目标;对搜索目标进行语义处理后得到用户搜索关键词,并发送至信息查询模块及索引实时更新模块;根据搜索关键词,对信息库进行搜索,得到用户所需信息;信息实时获取模块通过网络获取最新信息,并将其发送至信息库中;索引实时更新模块根据最新信息,对语义分析模块中的信息进行实时更新。本发明方法的优点是可以让用户享受更为人性化、更快捷的方式进行信息搜索。

Description

一种基于文本或语音的信息搜索方法
技术领域
本发明涉及一种基于文本或语音的信息搜索方法,属于网络信息查询技术领域。
背景技术
伴随互联网的深入发展,搜索引擎及搜索服务的出现和演进深刻影响了人们的生活方式,但目前,无论是互联网还是移动互联网搜索技术,都仅仅是基于文本的方式进行信息查询,其缺点是:不能理解用户输入的自然语言,只能做简单的关键词匹配或理解。另一方面,由于互联网的普及,人们被信息爆炸、信息垃圾所困扰。虽然通过搜索引擎、目录、人工编辑的社区等工具,人们可以获得一定的帮助,但是这些工具的准确性和方便性仍很不足够,急迫需要智能化、精确化、专业化、个性化的,以用户为中心的智能信息服务。
发明内容
本发明的目的是提出一种基于文本或语音的信息搜索方法,用多种方法输入查询要求,给用户提供方便、快捷而多样化的查询方式,并通过语义分析正确理解用户的真正需求;同时,本发明从网络实时获取信息,保证用户查询信息的实时性、有效性及准确性。
本发明提出的基于文本或语音的信息搜索方法,包括以下步骤:
(1)用户将搜索目标输入至语义分析模块,或将搜索目标以语音方式输入至语音识别模块,语音识别模块对搜索目标进行识别后得到正确的搜索目标,并将正确的搜索目标发送至语义分析模块;
(2)语义分析模块对上述搜索目标进行语义处理后得到用户搜索关键词,并将用户搜索关键词发送至信息查询模块及索引实时更新模块;
(3)信息查询模块根据上述搜索关键词,对信息库进行搜索,得到用户所需信息;
(4)信息实时获取模块通过网络获取最新信息,并将最新信息发送至信息库中;
(5)索引实时更新模块根据信息库的上述最新信息,对语义分析模块中的信息进行实时更新。
本发明提出的基于文本或语音的信息搜索方法,其优点是:
1、本发明提出的基于文本或语音的信息搜索方法,为用户提供了多种的信息查询方式,用户既能通过互联网输入文字进行信息查询,也可以通过语音输入的方式了解最新信息,例如将本发明信息查询方法用于农业市场行情时,如价格参数、产地、交易市场等,用户只要说一句“今天大白菜多少钱一斤”,系统就将会实时反馈用户有关该问题的详细答案,包括大白菜的最高价、最低价、均价等信息,这样可以让用户享受更为人性化,更快捷的方式进行农业市场信息搜索。
2、本发明的信息搜索方法,用自然语言与计算机进行交流,获取合适的信息,使人们能够方便、快捷地获取所需信息,即使用户的信息输入中带有错别字,系统也能自动识别并纠正,例如将本发明信息查询方法用于餐饮领域时,用户输入“我想在上地附近吃大渣蟹”(应为“大闸蟹”),系统也能完全准备的理解用户的输入并查找出正确的信息。
3、本发明的信息获取方法,采用从互联网实时抓取网页信息,并且系统能7*24小时运行不间断获取信息,同时本发明中系统抓取信息的一个重要特点是,即使网站页面信息是动态生成、需要复杂的脚本验证或登录才能看到的信息,本系统程序也能自动模拟实际用户访问网站的方式,最终将对方网站的信息抓取下来并保存在信息库中。
附图说明
图1是本发明方法的流程示意图。
具体实施方式
本发明提出的基于文本或语音的信息搜索方法,如图1所示,首先用户将搜索目标输入至语义分析模块,或将搜索目标以语音方式输入至语音识别模块,语音识别模块对搜索目标进行识别后得到正确的搜索目标,并将正确的搜索目标发送至语义分析模块;语义分析模块对上述搜索目标进行语义分析后得到用户搜索关键词,并将用户搜索关键词发送至信息查询模块及索引实时更新模块;信息查询模块根据上述搜索关键词,对信息库进行搜索,得到用户所需信息;信息实时获取模块通过网络获取最新信息,并将最新信息发送至信息库中;索引实时更新模块根据信息库的上述最新信息,对语义分析模块中的信息进行实时更新。
下面结合附图,对本发明内容作详细的阐述。图1示出了一种基于文本或语音的信息搜索方法示意图,主要涉语音识别模块、语义分析模块、信息查询模块、实时索引更新模块和信息实时获取模块。
语义分析模块:用户将搜索目标提交到本发明系统中的语义分析模块或语音识别模块,经过语义处理后,得到用户搜索关键词,并且语义分析模块具有一定的自动纠错功能,如“大扎蟹”能够识别为“大闸蟹”;该模块的实现方法包括以下步骤:
1)从语法配置文件中读入基于语义类的上下文无关增强文法;
2)对用户输入的句子进行分词;
3)对分词结果进行句法分析;
4)取最优的句法分析结果进行语义分析,得到用户最终的搜索关键词信息。
上述基于语义类的上下文无关增强文法,其具体实现过程包括以下步骤:
a)根据领域任务定义文法中所有的终结符、非终结符和规则
b)终结符为按语义分类的关键词,关键词可包含阿拉伯数字和英文字母,每个关键词都有相应的拼音;
c)每一条规则都被赋以一个优先级别;
d)一个优先级的规则集合可以是词法分析的或非词法分析的;
e)所说的规则与语义直接关联,每一条规则都对应一个语义分析函数。
语音识别模块:对用户的语音信息进行识别并转换成文本信息,然后将文本信息提交至语义分析模块;该模块的实现方法包括以下步骤:
1)系统初始化加载声音模型及中文词库文件;
2)接收用户语音信息,提取用户声音特征;
3)建立用户声音模型,用代表语义信息的声音模型给用户声音模型信息打分;
4)检出语义单元中最大的输出信息;
5)最后,从最大的语义单元输出信息中获取文本信息。
信息查询模块:接收从语义分析模块传送的搜索关键词,以此为作为查询信息库的具体条件,得到用户所需要的信息。
实时索引更新模块:实时索引更新模块自动将信息库中的最新信息实时更新到语义分析模块的关键词列表中,从而保证用户查询数据的有效性、准确性。
信息实时获取模块:抓取互联网特定领域(例如餐饮、租房)网站的网页数据,并自动分类整理到信息库中。
以下对本方法的具体过程说明如下:通过各类硬件终端将文本(例如能连接到互联网的电脑或手机输入)或语音信息(例如电话)输入到语义分析模块。用户可以通过各类硬件终端将文本(例如能连接到互联网的电脑或手机输入)提交至本发明系统中的语义分析模块。用户也可以首先将语音信息(例如电话)提交至本发明系统中的语音识别模块,语音识别模块将语音信息转换为文本信息后,再将文本信息发送至语义分析模块。
语义分析模块接收来自上述两种情形的信息,得到的搜索关键词,并将搜索关键词信息提交至信息查询模块。
信息查询模块通过关键词信息从信息库中找出结果,并组织成友好的数据呈现反馈给用户。
本发明方法中的信息实时获取模块7*24小时不间断运行抓取互联网网页信息,经自动整理、分类后更新至本系统的信息库中,同时索引更新模块实时将信息库中新增的数据更新到语义分析模块的关键词列表中,以保证用户搜索的准确与实时。

Claims (1)

1、一种基于文本或语音的信息搜索方法,其特征在于该方法包括以下步骤:
(1)用户将搜索目标输入至语义分析模块,或将搜索目标以语音方式输入至语音识别模块,语音识别模块对搜索目标进行识别后得到正确的搜索目标,并将正确的搜索目标发送至语义分析模块;
(2)语义分析模块对上述搜索目标进行语义处理后得到用户搜索关键词,并将用户搜索关键词发送至信息查询模块及索引实时更新模块;
(3)信息查询模块根据上述搜索关键词,对信息库进行搜索,得到用户所需信息;
(4)信息实时获取模块通过网络获取最新信息,并将最新信息发送至信息库中;
(5)索引实时更新模块根据信息库的上述最新信息,对语义分析模块中的信息进行实时更新。
CNA2008102269479A 2008-11-21 2008-11-21 一种基于文本或语音的信息搜索方法 Pending CN101404035A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNA2008102269479A CN101404035A (zh) 2008-11-21 2008-11-21 一种基于文本或语音的信息搜索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNA2008102269479A CN101404035A (zh) 2008-11-21 2008-11-21 一种基于文本或语音的信息搜索方法

Publications (1)

Publication Number Publication Date
CN101404035A true CN101404035A (zh) 2009-04-08

Family

ID=40538047

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2008102269479A Pending CN101404035A (zh) 2008-11-21 2008-11-21 一种基于文本或语音的信息搜索方法

Country Status (1)

Country Link
CN (1) CN101404035A (zh)

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010124507A1 (zh) * 2009-04-30 2010-11-04 广东国笔科技股份有限公司 一种基于语义分析的智能检索系统及方法
CN102486801A (zh) * 2011-09-06 2012-06-06 上海博路信息技术有限公司 一种语音识别方式获取出版物内容的方法
CN102750366A (zh) * 2012-06-18 2012-10-24 海信集团有限公司 基于自然交互输入的视频搜索系统及方法和视频搜索服务器
CN102831157A (zh) * 2012-07-04 2012-12-19 四川长虹电器股份有限公司 语意识别搜索的方法及系统
CN102929483A (zh) * 2012-10-25 2013-02-13 东莞宇龙通信科技有限公司 终端和资源分享方法
CN102968987A (zh) * 2012-11-19 2013-03-13 百度在线网络技术(北京)有限公司 一种语音识别方法及系统
WO2013091415A1 (zh) * 2011-12-23 2013-06-27 优视科技有限公司 语音搜索方法及系统、移动终端、中转服务器
CN103237136A (zh) * 2013-05-10 2013-08-07 上海华勤通讯技术有限公司 移动终端及其主题词的检索方法
CN104239462A (zh) * 2014-09-02 2014-12-24 百度在线网络技术(北京)有限公司 搜索结果的展现方法和装置
CN105183812A (zh) * 2015-08-27 2015-12-23 江苏惠居乐信息科技有限公司 多功能信息咨询系统
CN105912521A (zh) * 2015-12-25 2016-08-31 乐视致新电子科技(天津)有限公司 一种解析语音内容的方法及装置
CN107015979A (zh) * 2016-01-27 2017-08-04 阿里巴巴集团控股有限公司 一种数据处理方法、装置和智能终端
CN108009303A (zh) * 2017-12-30 2018-05-08 北京百度网讯科技有限公司 基于语音识别的搜索方法、装置、电子设备和存储介质
CN108091333A (zh) * 2017-12-28 2018-05-29 广东欧珀移动通信有限公司 语音控制方法及相关产品
CN108121790A (zh) * 2017-12-19 2018-06-05 百度在线网络技术(北京)有限公司 汉语字词查询方法、装置、服务器、设备及存储介质
CN108536414A (zh) * 2017-03-06 2018-09-14 腾讯科技(深圳)有限公司 语音处理方法、装置和系统、移动终端
CN108921747A (zh) * 2018-07-06 2018-11-30 重庆和贯科技有限公司 打造学生沉浸感的智慧教育系统
CN110334941A (zh) * 2019-07-01 2019-10-15 百度在线网络技术(北京)有限公司 无人物流车调度方法、装置、电子设备和可读存储介质
CN112074898A (zh) * 2018-02-22 2020-12-11 美的集团股份有限公司 用于意图推理的上下文无关文法的机器生成
CN112527973A (zh) * 2020-12-25 2021-03-19 北京博瑞彤芸科技股份有限公司 一种搜索疾病信息的方法和系统
CN112735475A (zh) * 2020-12-25 2021-04-30 北京博瑞彤芸科技股份有限公司 一种通过语音搜索疾病知识的方法和系统

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010124507A1 (zh) * 2009-04-30 2010-11-04 广东国笔科技股份有限公司 一种基于语义分析的智能检索系统及方法
CN102486801A (zh) * 2011-09-06 2012-06-06 上海博路信息技术有限公司 一种语音识别方式获取出版物内容的方法
WO2013091415A1 (zh) * 2011-12-23 2013-06-27 优视科技有限公司 语音搜索方法及系统、移动终端、中转服务器
CN106886587A (zh) * 2011-12-23 2017-06-23 优视科技有限公司 语音搜索方法、装置及系统、移动终端、中转服务器
CN102750366A (zh) * 2012-06-18 2012-10-24 海信集团有限公司 基于自然交互输入的视频搜索系统及方法和视频搜索服务器
CN102831157A (zh) * 2012-07-04 2012-12-19 四川长虹电器股份有限公司 语意识别搜索的方法及系统
CN102929483A (zh) * 2012-10-25 2013-02-13 东莞宇龙通信科技有限公司 终端和资源分享方法
CN102929483B (zh) * 2012-10-25 2017-07-14 东莞宇龙通信科技有限公司 终端和资源分享方法
CN102968987A (zh) * 2012-11-19 2013-03-13 百度在线网络技术(北京)有限公司 一种语音识别方法及系统
CN103237136A (zh) * 2013-05-10 2013-08-07 上海华勤通讯技术有限公司 移动终端及其主题词的检索方法
CN103237136B (zh) * 2013-05-10 2016-01-20 上海华勤通讯技术有限公司 移动终端及其主题词的检索方法
CN104239462A (zh) * 2014-09-02 2014-12-24 百度在线网络技术(北京)有限公司 搜索结果的展现方法和装置
CN105183812A (zh) * 2015-08-27 2015-12-23 江苏惠居乐信息科技有限公司 多功能信息咨询系统
CN105912521A (zh) * 2015-12-25 2016-08-31 乐视致新电子科技(天津)有限公司 一种解析语音内容的方法及装置
CN107015979A (zh) * 2016-01-27 2017-08-04 阿里巴巴集团控股有限公司 一种数据处理方法、装置和智能终端
CN108536414B (zh) * 2017-03-06 2021-10-22 腾讯科技(深圳)有限公司 语音处理方法、装置和系统、移动终端
CN108536414A (zh) * 2017-03-06 2018-09-14 腾讯科技(深圳)有限公司 语音处理方法、装置和系统、移动终端
CN108121790A (zh) * 2017-12-19 2018-06-05 百度在线网络技术(北京)有限公司 汉语字词查询方法、装置、服务器、设备及存储介质
CN108091333A (zh) * 2017-12-28 2018-05-29 广东欧珀移动通信有限公司 语音控制方法及相关产品
CN108009303B (zh) * 2017-12-30 2021-09-14 北京百度网讯科技有限公司 基于语音识别的搜索方法、装置、电子设备和存储介质
CN108009303A (zh) * 2017-12-30 2018-05-08 北京百度网讯科技有限公司 基于语音识别的搜索方法、装置、电子设备和存储介质
CN112074898A (zh) * 2018-02-22 2020-12-11 美的集团股份有限公司 用于意图推理的上下文无关文法的机器生成
CN112074898B (zh) * 2018-02-22 2023-12-01 美的集团股份有限公司 用于意图推理的上下文无关文法的机器生成
CN108921747A (zh) * 2018-07-06 2018-11-30 重庆和贯科技有限公司 打造学生沉浸感的智慧教育系统
CN110334941A (zh) * 2019-07-01 2019-10-15 百度在线网络技术(北京)有限公司 无人物流车调度方法、装置、电子设备和可读存储介质
CN112527973A (zh) * 2020-12-25 2021-03-19 北京博瑞彤芸科技股份有限公司 一种搜索疾病信息的方法和系统
CN112735475A (zh) * 2020-12-25 2021-04-30 北京博瑞彤芸科技股份有限公司 一种通过语音搜索疾病知识的方法和系统
CN112735475B (zh) * 2020-12-25 2023-02-21 北京博瑞彤芸科技股份有限公司 一种通过语音搜索疾病知识的方法和系统

Similar Documents

Publication Publication Date Title
CN101404035A (zh) 一种基于文本或语音的信息搜索方法
CN106537370B (zh) 在存在来源和翻译错误的情况下对命名实体鲁棒标记的方法和系统
CN108287858B (zh) 自然语言的语义提取方法及装置
KR101858206B1 (ko) 지능형 챗봇 기반 대화형 현장 지원 서비스 제공 방법
US20210064821A1 (en) System and method to extract customized information in natural language text
US20110087961A1 (en) Method and System for Assisting in Typing
CN1936893B (zh) 基于互联网信息的输入法词频库的生成方法和系统
CN109637537B (zh) 一种自动获取标注数据优化自定义唤醒模型的方法
CN104102721A (zh) 信息推荐方法和装置
CN108388553B (zh) 对话消除歧义的方法、电子设备及面向厨房的对话系统
CN103678684A (zh) 一种基于导航信息检索的中文分词方法
CN103064956A (zh) 用于搜索电子内容的方法、计算系统和计算机可读介质
EP3022660A2 (en) Performing an operation relative to tabular data based upon voice input
CN101986293A (zh) 用于在搜索界面中呈现搜索答案信息的方法及设备
CN110222045A (zh) 一种数据报表获取方法、装置及计算机设备、存储介质
US9442976B2 (en) Related-word registration device, information processing device, related-word registration method, program for related-word registration device, recording medium, and related-word registration system
CN105760359B (zh) 问句处理系统及其方法
US9110852B1 (en) Methods and systems for extracting information from text
CN104808806A (zh) 根据不确定性信息实现汉字输入的方法和装置
CN109948154B (zh) 一种基于邮箱名的人物获取及关系推荐系统和方法
CN103324621A (zh) 一种泰语文本拼写纠正方法及装置
CN105389303B (zh) 一种异源语料自动融合方法
CN107480197B (zh) 实体词识别方法及装置
US11379527B2 (en) Sibling search queries
CN103927339A (zh) 知识重组系统和知识重组方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Open date: 20090408