CN113987146B - 一种电力内网专用的智能问答系统 - Google Patents
一种电力内网专用的智能问答系统 Download PDFInfo
- Publication number
- CN113987146B CN113987146B CN202111231847.7A CN202111231847A CN113987146B CN 113987146 B CN113987146 B CN 113987146B CN 202111231847 A CN202111231847 A CN 202111231847A CN 113987146 B CN113987146 B CN 113987146B
- Authority
- CN
- China
- Prior art keywords
- module
- crawling
- retrieval
- file
- database
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000009193 crawling Effects 0.000 claims abstract description 99
- 230000006870 function Effects 0.000 claims description 56
- 238000004458 analytical method Methods 0.000 claims description 34
- 230000009471 action Effects 0.000 claims description 32
- 238000000034 method Methods 0.000 claims description 19
- 230000008569 process Effects 0.000 claims description 13
- 238000012905 input function Methods 0.000 claims description 4
- 238000005553 drilling Methods 0.000 claims description 3
- 230000000737 periodic effect Effects 0.000 claims description 3
- 230000001960 triggered effect Effects 0.000 claims description 3
- 238000012423 maintenance Methods 0.000 claims 1
- 230000000875 corresponding effect Effects 0.000 description 23
- 238000013507 mapping Methods 0.000 description 9
- 238000007726 management method Methods 0.000 description 7
- 230000011218 segmentation Effects 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 239000008186 active pharmaceutical agent Substances 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 208000025174 PANDAS Diseases 0.000 description 1
- 208000021155 Paediatric autoimmune neuropsychiatric disorders associated with streptococcal infection Diseases 0.000 description 1
- 240000000220 Panda oleosa Species 0.000 description 1
- 235000016496 Panda oleosa Nutrition 0.000 description 1
- 235000009499 Vanilla fragrans Nutrition 0.000 description 1
- 244000263375 Vanilla tahitensis Species 0.000 description 1
- 235000012036 Vanilla tahitensis Nutrition 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000026676 system process Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3343—Query execution using phonetics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
- G06F16/9566—URL specific, e.g. using aliases, detecting broken or misspelled links
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Human Computer Interaction (AREA)
- Business, Economics & Management (AREA)
- Acoustics & Sound (AREA)
- Economics (AREA)
- Mathematical Physics (AREA)
- Multimedia (AREA)
- Tourism & Hospitality (AREA)
- Primary Health Care (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Human Resources & Organizations (AREA)
- Water Supply & Treatment (AREA)
- General Business, Economics & Management (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Public Health (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及信息检索技术领域,具体涉及一种电力内网专用的新型智能问答系统,包括智能问答模块,包括输入模块和输出模块;所述输入模块用于用户输入检索内容;语义理解模块,用于对所述检索内容进行语义理解;文件爬取和检索模块,用于对文件数据源进行爬取,建立文件索引;数据库爬取和检索模块,用于对业务数据库进行爬取;应用模块数据库,用于根据所述语义理解模块对所述检索内容的理解进行应用模块数据的输出,所述应用模块数据至少包括应用模块的地址链接;所述输出模块,用于输出文件索引和/或业务信息和/或应用模块数据。该系统能够解决检索精细化的需求,提高了电力用户获取所需答案的效率。
Description
技术领域
本发明涉及信息检索技术领域,具体涉及一种电力内网专用的智能问答系统。
背景技术
随着电力企业各种业务系统种类及其数据量的日益增长,众多有价值的数据零散的分散在各处,用户难以直接获取到想要的数据,而传统的信息检索系统也经常出现检索不准确、信息模糊等问题,为了长远的发展利益,企业需要建立一套智能问答系统,通过简单的交互方式,使用户能快速搜索识别分散在各存储空间上的文件数据、或业务数据库中被整合的数据。智能问答系统通过将数据经过加工处理形成某种具有固定结构的数据库,并通过对自然语言处理解析,了解用户意图,从而快速、精准地为用户提供需要的信息,有效满足用户越来越精细化、多样化的检索需求。
目前已有的智能问答系统有很多,涉及医药、客户服务、论坛等多个业务领域,其中vanilla属于论坛服务,可以通过关键字快速搜索出结果,但搜索结果中排序未做好,文章标题中存在关键字时,不会高亮显示,而且检索结果也不会自动打开最相关的文章,无语音播报等功能。另外,在现有的信息检索系统中,比如一些互联网信息搜索引擎,这种全网式基于关键词搜索,网页集合需要用户浏览过滤筛选,来判断是否是自己需要的信息,这样经常出现搜索不准确、结果模糊的问题,耗费用户的时间,而面对一些特定行业的一些专业知识,需求要求检索结果更加精细、多样,传统的单纯基于关键词检索的信息检索系统无法很好的胜任检索工作,检索的数据范围也被单一的数据存储空间所限制,用户无法自由的配置要检索的存储空间,而对于数据库中未拟合的散碎数据也无法有效获取。检索系统不能够智能的理解用户的意图,用户总是需要修改自己的描述来不断的检索并筛选需要的答案,无法直接返回明确的答案,这些都对电力企业用户的日常生产工作造成了一定影响。
因此,有必要提供一种智能问答系统,为用户解决检索精细化的需求,极大地提高了用户获取所需答案的效率。
发明内容
解决的技术问题
针对现有技术所存在的上述缺点,本发明提供了一种电力内网专用的智能问答系统,能够为电力用户解决检索精细化的需求,极大地提高了电力用户获取所需答案的效率。
技术方案
为实现以上目的,本发明通过以下技术方案予以实现:
本发明提供一种电力内网专用的智能问答系统,包括:
智能问答模块,包括输入模块和输出模块,所述输入模块用于用户输入检索内容;
语义理解模块,用于对所述检索内容进行语义理解,得到理解内容;
文件爬取和检索模块,用于储存对文件数据源进行爬取得到的文件索引,并根据所述理解内容进行文件索引的输出,所述文件索引连接所述文件数据源中的文件;
数据库爬取和检索模块,用于储存对业务数据库进行爬取得到的业务信息,并根据所述理解内容进行业务信息的输出,所述业务信息连接所述业务数据库中对应的业务拟合数据;
应用模块检索模块,用于根据所述理解内容进行应用模块数据的输出,所述应用模块数据至少包括应用模块的地址链接;
所述输出模块,用于输出文件索引和/或业务信息和/或应用模块数据。
进一步地,所述语义理解模块包括时间词典、动作词典和应用模块词典,所述时间词典中储存有时间关键词,用于与所述检索内容中的时间词语进行匹配理解,所述动作词典中储存有动作关键词,用于与所述检索内容中的动作词语进行匹配理解,所述应用模块词典中储存有应用模块名称,用于与所述检索内容中的应用模块名称进行匹配理解。
进一步地,所述输入模块包括文字输入功能和语音输入功能,所述输出模块包括文字输出功能和语音输出功能。
进一步地,所述文件爬取和检索模块具体包括如下功能:
爬取文件的页面管理功能,所述页面管理功能管理内容至少包括:目标文件夹、文件类型、用户名、密码、获取方式、爬取周期,并提供按设置周期爬取和手动触发爬取功能;
原始文件判断功能,在文件爬取过程中,若原始文件被删除,则删除原有本地爬取副本和索引库对应的记录;若原始文件被改名,则视作新文件进行爬取;若原始文件未改名同时内容被更新,则爬取并覆盖本地副本。
进一步地,所述文件爬取和检索模块的爬取目标至少包括FTP和共享文件夹。
进一步地,所述数据库爬取和检索模块具体包括如下功能:
对数据库爬取配置功能,至少包括用户定义的标题和内容、爬取时间、业务模块名称和第三方模块URL,还包括按设置进行周期爬取或者手动触发的功能;
业务信息预分析功能,至少包括对业务信息的拼接输出。
进一步地,所述输入模块包括对搜索类型的设定功能,所述搜索类型包括全部搜索类型、文件检索类型和数据库检索类型,所述全部搜索类型指同时使用所述文件爬取和检索模块、所述数据库爬取和检索模块以及所述应用模块数据库进行检索,所述文件检索类型指使用所述文件爬取和检索模块进行检索,仅检索文件,所述数据库检索类型指使用所述数据库爬取进行检索,仅检索业务信息。
进一步地,利用js-audio-recorder插件实现语音的录入,并且至少还支持录音、暂停和恢复播报功能。
进一步地,所述时间词典、所述动作词典和所述应用模块词典均可查看对应的时间、动作和应用模块知识树。
有益效果
本发明提供的技术方案,与已知的公有技术相比,具有如下有益效果:本发明通过文件检索引擎、数据库检索引擎和应用模块检索引擎为基础建立检索的数据来源基础,优点如下:
1)能够使用语音或文字的方式来输入问题,可以通过优化语音识别模型来提高专业术语的识别率,系统回答的结果可以以语音的效果呈现;
2)利用时间词典、动作词典和应用模块词典,使得智能问答检索时,对检索内容进行分词和词性标注,将分词的内容与词典匹配,得到对应参数并返回对应结果,从而准确理解时间词语的含义;
3)本发明可以通过问答形式对系统提问,系统可以返回明确答案到检索结果第一位,并动作指令来打开应用模块或者播报某个文档。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例提供的电力内网专用的智能问答系统示意图;
图2为本发明一实施例提供的电力内网专用的智能问答系统中文件爬取和检索模块示意图;
图3为本发明一实施例提供的电力内网专用的智能问答系统中数据库爬取和检索模块示意图;
图4为本发明一实施例提供的电力内网专用的智能问答系统中智能问答模块示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参阅图1,本发明一实施例提供了一种电力内网专用的智能问答系统,包括:
一种电力内网专用的智能问答系统,包括:
智能问答模块,包括输入模块和输出模块,所述输入模块用于用户输入检索内容;
语义理解模块,用于对所述检索内容进行语义理解,得到理解内容;
文件爬取和检索模块,包括第一预分析库,用于储存对文件数据源进行爬取得到的文件索引,并根据所述理解内容进行文件索引的输出,所述文件索引连接所述文件数据源中的文件;
数据库爬取和检索模块,包括第二预分析库,用于储存对业务数据库进行爬取得到的业务信息,并根据所述理解内容进行业务信息的输出,所述业务信息连接所述业务数据库中对应的业务拟合数据;
应用模块检索模块,用于根据所述理解内容进行应用模块数据的输出,所述应用模块数据至少包括应用模块的地址链接;
所述输出模块,用于输出文件索引和/或业务信息和/或应用模块数据。
在本实施中,参阅图1,所述语义理解模块包括时间词典、动作词典和应用模块词典,所述时间词典中储存有时间关键词,用于与所述检索内容中的时间词语进行匹配理解,所述动作词典中储存有动作关键词,用于与所述检索内容中的动作词语进行匹配理解,所述应用模块词典中储存有应用模块名称,用于与所述检索内容中的应用模块名称进行匹配理解。
在本实施例中,所述文件爬取和检索模块具体包括如下功能:爬取文件的页面管理功能,所述页面管理功能管理内容至少包括:目标文件夹、文件类型、用户名、密码、获取方式、爬取周期,并提供按设置周期爬取和手动触发爬取功能;原始文件判断功能,在文件爬取过程中,若原始文件被删除,则删除原有本地爬取副本和索引库对应的记录;若原始文件被改名,则视作新文件进行爬取;若原始文件未改名同时内容被更新,则爬取并覆盖本地副本。
文件爬取和检索是两个相反方向的操作过程,具体如图2文件爬取与检索系统核心设计,配置了数据源后,爬虫定期对数据源进行爬取(或由用户手动启动爬取),建立文件索引,将文件索引存入与分析库,为前台用户进行文件检索时提供高速、准确的搜索服务。
文件爬取的目的是建立文件索引,并形成文件本地副本,保存在文件搜索服务器上,以便加快后续文件检索速度,在具体实现上:提供爬取文件的页面管理功能,管理内容包括:目标文件夹、文件类型、用户名、密码、获取方式、爬取周期等。提供按设置周期爬取和手动触发爬取功能。提供对局域网内的文件信息的爬取,爬取目标包括FTP、共享文件夹等,包括对文搜索服务器自身的爬取。在文件爬取过程中,如果原始文件被删除,则删除原有本地爬取副本和索引库对应的记录;如果原始文件被改名,则视作新文件进行爬取(并删除原有索引和本地副本);如果原始文件未改名同时内容被更新,则爬取并覆盖本地副本。
文件检索提供按照单个或者或且关系的多个关键字进行文件检索的功能,检索范围主要包括文件名称、文件内容等。提供文件名称及内容的分析功能。如果文件名称或文件内容中包含到关键字,则在搜索中体现。进行内容分析的格式主要包括doc/docx/xls/xlsx/ppt/pptx/pdf/ceb/txt等。检索结果中展示内容包括:文件名称、关键字(高亮)的上下段、文件位置,并可以对检索记录进行钻取,包括文件内容的在线查看(此时打开的是原文件)、下载(是原文件)。当原始文件与之前爬取的本地副本不一致时,提供文件已更新提示,同时更新或删除该部分副本或索引记录。在线查看过程中,能在打开的文件中定位到关键字位置。检索结果默认按照用户角色(按角色名与文件名称、文件内容和标签进行“匹配”)和文件的修改时间倒序排序,且排序规则可按二次开发的排序API进行定制。提供根据爬取索引库实现回溯打开功能,快速打开对应共享文件夹的功能。
在本实施例中,参阅图3,所述数据库爬取和检索模块具体包括如下功能:对数据库爬取配置功能,至少包括用户定义的标题和内容、爬取时间、业务模块名称和第三方模块URL,还包括按设置进行周期爬取或者手动触发的功能;业务信息预分析功能,至少包括对业务信息的拼接输出。
数据库爬取与检索提供对业务数据库的爬取和检索,并可以对检索结果进行钻取和自动登录进行后续操作。业务全局检索的实现同样分为两步,第一步是业务数据库的爬取;第二步是业务检索。
对于业务数据库的爬取,目的是建立第二预分析库,以加快后续搜索(检索)速度。其提供对数据库爬取配置功能,包括用户定义的标题和内容、爬取时间、业务模块名称和第三方模块URL等。爬取结果存入预分析库。提供按设置周期爬取和手动触发爬取功能。还实现业务信息预分析功能。例如在爬取配置中,如果是搜索表A(列2-列2、列3),则可以在预分析的过程中,将列1和列2和列3进行拼接,在爬取后直接作为预分析库中的关键字段1,用以在后期进行搜索。爬取预分析过程举例如下:
操作票表:将操作单位(czdw)+操作目的(czmd)+检修单编号(jxd)按照配置进行采集拼接,存入预分析库。
操作令表:将操作票ID(CZP_ID),序号(DINDEX)+操作单位(czdw)+操作内容(cznr)分别作为两个字段存入预分析库。
对于业务检索,业务检索子系统提供单个、多个关键字搜索/查询(搜索对象为预分析库),并按照当前登录人员的角色对搜索结果进行排序,且排序规则可按二次开发的排序API进行定制。检索结果界面上显示关键字所处字段信息(是指预分析库中拼接后的字段信息)、完整的缓存条目信息(即预分析库中对应记录的完整拼接信息)、所属模块及其URL。通过检索记录,带入当前用户信息(例如工号),可以快速打开三方应用进行后续操作(需要三方应用配合)。用户点击第三方链接进入该应用模块后的操作权限(阅读、编辑权等),则由该第三方系统定义。
在本实施例中,参阅图4,对于智能问答模块(系统),其数据基础基于文件爬取与检索和数据库爬取与检索,系统主要包括:梳理业务数据和流程,手工方式与自动爬取相结合,建立知识图谱数据库。建立查询关键词与知识项的键-值映射数据库;该映射初始为手工建立;运行过程中随时可手工调整,完善和优化系统准确度和性能;并且系统会智能学习用户的输入和操作行为,自动建立关键词与知识项的映射。建立动作词典和时间词典,将用户自定义的动作词语映射到相应的动作类型上,时间词语则建立标准的数字偏移量,当用户搜索时,在词典中匹配,若使用了相关的词语,则自动解析换算为相应的动作或偏移数值。偏移量:偏移量是整数,相对于此时此刻。例:“昨天”类型为天,偏移量为-1,“今天”类型为天,偏移量为0,“明天”类型为天,偏移量为1,以此类推。用户在应用模块中,可配置模块的地址URL,相应的参数及词典等,在搜索时,对搜索内容进行分词和词性标注,查找词典匹配模块名称,按顺序绑定参数,最终组装成完整的模块访问URL供用户访问。语音识别模块负责识别用户的语音输入问题,转为文字;用户也可以手工键入问题。语义解析模块对文字进行分词和词性分析,并将分析结果作为关键词,查询系统已经加载到内存中的关键词与知识项键-值映射数据库,返回相应的知识。
例如:
当用户需要查看“昨日最高负荷”、“上周最低负荷”等信息时,机器人可以根据输入语音或文字输入,分析用户意图(其中的时间类型),直接返回对应的最高、最低负荷结果,以文字、语音的效果呈现。
当用户需要打开某个具体应用时,机器人可以理解用户的语音或文字输入,如“打开昨日的负荷曲线”,系统能够直接返回并打开对应的负荷曲线界面。
用户可以通过问答方式询问当前知识库中的内容,系统返回明确答案。比如:“220开关的操作规则是什么?”,系统会从知识库中找到答案并返回。
智能问答管理模块只有系统的超级管理员可见。智能问答检索中,只有涉及到“打开”类型的动作词,才会自动打开对应的文件/数据库-模块(自动打开的是所有检索中的第一个检索结果。);其他类型的动作词都只返回检索结果,不会自动打开第一个检索结果。
在本实施例中,所述输入模块的搜索类型包含全部搜索类型、文件检索和数据库检索三种类型,默认使用全部搜索类型。全部搜索类型:即指同时搜到文件内容和数据库拟合内容,为文件检索和数据库检索的合集,还包括应用模块的搜索。文件检索类型:只能搜索文件,检索功能同文件检索模块。数据库检索类型:只能搜索数据库拟合数据,检索功能同数据库检索模块。搜索框会显示最近的搜索记录,输入关键字时会显示相应的联想词,历史关键词会在个人中心的智能问答关键词列表中记录。
在本实施例中,可以利用js-audio-recorder插件实现语音的录入,还支持录音、暂停、恢复播报等功能。目前系统考虑常用音频内容的大小,将音频参数设置为8kHz(采样率)、单声道,16Bit(采样位数)。常规的音频录入会伴随一些环境杂音,以及音频前后部分都会有“空白”出现,所以系统的音频录入保留了裁剪操作,即截取音频的中间部分作为最终识别的对象。语音录入过程如下:
先获取录音权限然后自动开启录音(如图1所示),监听到语音录入结束3s后自动结束并转为wav格式音频,并且自动过滤无效识别内容,环境噪声也会被过滤。自动结束通过判断音量比实现,音量比低于10%则默认当前无语音录入。点击输入框尾部的麦克风按钮,点击机器人头像,可语音输入文字进行搜索。打开语音识别未录入语音内容,3秒后提示“音量太小,请您检查麦克风设置”。而监听到有语音输入,3秒内没有继续录入则自动暂停,开始识别。要使用智能检索的打开功能,需先将“个人偏好-智能问答设置”的开关打开。配置完应用模块后,例如配置了文档编辑的模块,则搜索“打开”类型动作词+模块名称+文件id+文档位置类似的句子(其中动作词位置可以不固定),即可直接打开需要的文件。在搜索内容中,默认会先搜索匹配“应用模块”,其次是数据库,第三是文件。如果在应用模块中未匹配到,则“打开”类型的动作词会被忽略,其本身也会被作为搜索关键词的一部分。使用“打开”类型的动作词,搜索后,将会自动打开结果中排行第一位的文件。(如果无法在线打开则提示下载后查看)。对于模糊的问题,系统会返回模糊匹配的知识列表供用户选择。列表会按用户的角色(身份、职责)进行排序。此外,系统会记录用户输入的模糊问题,并根据用户选择的点击项,自动建立新的问题关键词与知识项的键-值映射,并存储到为用户专有的映射库中。对于返回多个知识项的问题,用户可以设置系统是否自动打开返回的第一个知识项。
在具体实现上,智能回答子系统采用主要工具如下:
数据处理及机器学习相关库:Pandas、ScikitTearn、Jieba。
深度学习框架:TensorFlow。
搜索引擎:ElasticSearch、FAISS。
机器人能够支持用户以问答方式询问知识库中的内容。能够对用户知识进行学习,形成知识图谱;能够对用户问题进行分析,了解其意图并返回用户需要的结果;能够分析用户意图,打开对应系统模块。基于知识库的问答系统本质属于“问-答”映射过程,基于对自然语言问题的语义解析,通过结构化查询与推理,得出相应的答案。问答系统是信息检索系统的一种高级形式,能够以准确简洁的自然语言为用户提供问题的解答。用户查询输入后,首先进行语义理解。对查询分词之后,对查询的描述进行规范化,使其能够与知识库进行匹配。查询的返回结果是搜索引擎在知识库中检索相应的实体后给出的完整知识体系,以直观的方式展现给用户。问答系统有多种分类,本项目需求属于垂直领域应用领域,适合实现为检索式问答系统。检索式问答系统回复类型与内容均由语料库决定,常用技术包括:
分词算法:传统算法包括HMM隐马尔可夫模型、CRF条件随机场等;深度学习方法包括LSTM、Gi-LTSM等。
文本向量化表示:OneHot、N-Gram、TFTD等词袋模型,Word2Vec、Doc2Vec、Glove、Bert、XLNet等神经网络模型,以及本相似度计算(如采用余弦相似度计算得分)。
检索工具:ElasticSearch搜索引擎、向量检索引擎Faiss等。
在本实施例中,在应用模块词典、时间词典和动作词典中均可查看知识树。树可拖动或放缩查看。应用模块的树中,根节点为全部模块,下分各配置的应用模块(名称底部显示其URL),模块下显示相应的词条和参数;时间词典的知识树中,根节点为全部时间词条,下分年、月、周、天、时、分、秒7种类型的时间,各时间类型下展示用户定义的时间词条;动作词典的知识树中,根节点为全部动作词条,下分打开、关闭、语音播报、暂停播报、停止播报、继续播报、提问、生成8种类型的动作,各动作类型下展示用户自定义的动作词条。
本发明的优点在于:
1)用户通过自由配置爬取的数据源,系统定期爬取文件数据建立预分析库,可以轻松地检索到分布存储于网络空间中各类海量文件,可灵活扩大智能检索的范围。
2)传统的信息检索入口一般不够简洁,本系统提供了简洁且功能强大的搜索入口。
3)提供方便易用的词典配置及应用模块配置功能,提高了系统理解用户意图的能力,使得用户能通过简单指令直接打开应用模块或者轻松获取数据库特定信息。
4)用户在数据检索时,不用再多次更换描述反复筛选结果,可通过问答方式询问当前系统中的内容,系统返回明确答案。
5)提供搜索结果下载、收藏和播报的功能,进一步满足用户信息检索后对结果的多样化处理需求。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不会使相应技术方案的本质脱离本发明各实施例技术方案的保护范围。
Claims (6)
1.一种电力内网专用的智能问答系统,其特征在于,包括:
智能问答模块,包括输入模块和输出模块,所述输入模块用于用户输入检索内容;
语义理解模块,用于对所述检索内容进行语义理解,得到理解内容;
文件爬取和检索模块,用于储存对文件数据源进行爬取得到的文件索引,并根据所述理解内容进行文件索引的输出,所述文件索引连接所述文件数据源中的文件;
所述文件爬取和检索模块具体包括如下功能:
爬取文件的页面管理功能,所述页面管理功能管理内容至少包括:目标文件夹、文件类型、用户名、密码、获取方式、爬取周期,并提供按设置周期爬取和手动触发爬取功能;
原始文件判断功能,在文件爬取过程中,若原始文件被删除,则删除原有本地爬取副本和索引库对应的记录;若原始文件被改名,则视作新文件进行爬取;若原始文件未改名同时内容被更新,则爬取并覆盖本地副本;
数据库爬取和检索模块,用于储存对业务数据库进行爬取得到的业务信息,并根据所述理解内容进行业务信息的输出,所述业务信息连接所述业务数据库中对应的业务拟合数据;
应用模块检索模块,用于根据所述理解内容进行应用模块数据的输出,所述应用模块数据至少包括应用模块的地址链接;
所述输出模块,用于输出文件索引和/或业务信息和/或应用模块数据;
所述数据库爬取和检索模块具体包括如下功能:
对数据库爬取配置功能,至少包括用户定义的标题和内容、爬取时间、业务模块名称和第三方模块URL,还包括按设置进行周期爬取或者手动触发的功能;
业务信息预分析功能,至少包括对业务信息的拼接输出;
数据库爬取与检索提供对业务数据库的爬取和检索,并可以对检索结果进行钻取和自动登录进行后续操作;业务全局检索的实现同样分为两步,第一步是业务数据库的爬取;第二步是业务检索;
对于业务数据库的爬取,目的是建立第二预分析库,以加快后续搜索速度,其提供对数据库爬取配置功能,包括用户定义的标题和内容、爬取时间、业务模块名称和第三方模块URL,爬取结果存入预分析库,提供按设置周期爬取和手动触发爬取功能,还实现业务信息预分析功能,在爬取配置中,搜索表A的列1和列2和列3,在预分析的过程中,将列1和列2和列3进行拼接,在爬取后直接作为预分析库中的关键字段1,用以在后期进行搜索;
爬取预分析过程为:操作票表:将操作单位+操作目的+检修单编号按照配置进行采集拼接,存入预分析库;操作令表:将操作票ID,序号+操作单位+操作内容分别作为两个字段存入预分析库;对于业务检索,业务检索子系统提供单个、多个关键字搜索/查询,并按照当前登录人员的角色对搜索结果进行排序,且排序规则按二次开发的排序API进行定制;检索结果界面上显示关键字所处字段信息,为预分析库中拼接后的字段信息、完整的缓存条目信息,即预分析库中对应记录的完整拼接信息、所属模块及其URL;通过检索记录,带入当前用户信息,可以快速打开三方应用进行后续操作;用户点击第三方链接进入该应用模块后的操作权限,该操作权限包括阅读、编辑权;
所述输入模块包括对搜索类型的设定功能,所述搜索类型包括全部搜索类型、文件检索类型和数据库检索类型,所述全部搜索类型指同时使用所述文件爬取和检索模块、所述数据库爬取和检索模块以及所述应用模块检索模块进行检索,所述文件检索类型指使用所述文件爬取和检索模块进行检索,仅检索文件,所述数据库检索类型指使用所述数据库爬取进行检索,仅检索业务信息。
2.根据权利要求1所述的电力内网专用的智能问答系统,其特征在于,所述语义理解模块包括时间词典、动作词典和应用模块词典,所述时间词典中储存有时间关键词,用于与所述检索内容中的时间词语进行匹配理解,所述动作词典中储存有动作关键词,用于与所述检索内容中的动作词语进行匹配理解,所述应用模块词典中储存有应用模块名称,用于与所述检索内容中的应用模块名称进行匹配理解。
3.根据权利要求1所述的电力内网专用的智能问答系统,其特征在于,所述输入模块包括文字输入功能和语音输入功能,所述输出模块包括文字输出功能和语音输出功能。
4.根据权利要求1所述的电力内网专用的智能问答系统,其特征在于,所述文件爬取和检索模块的爬取目标至少包括FTP和共享文件夹。
5.根据权利要求2所述的电力内网专用的智能问答系统,其特征在于,利用js-audio-recorder插件实现语音的录入,并且至少还支持录音、暂停和恢复播报功能。
6.根据权利要求2所述的电力内网专用的智能问答系统,其特征在于,所述时间词典、所述动作词典和所述应用模块词典均可查看对应的时间、动作和应用模块知识树。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111231847.7A CN113987146B (zh) | 2021-10-22 | 2021-10-22 | 一种电力内网专用的智能问答系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111231847.7A CN113987146B (zh) | 2021-10-22 | 2021-10-22 | 一种电力内网专用的智能问答系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113987146A CN113987146A (zh) | 2022-01-28 |
CN113987146B true CN113987146B (zh) | 2023-01-31 |
Family
ID=79740250
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111231847.7A Active CN113987146B (zh) | 2021-10-22 | 2021-10-22 | 一种电力内网专用的智能问答系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113987146B (zh) |
Citations (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008305385A (ja) * | 2007-05-10 | 2008-12-18 | Sony Corp | 文字入力装置、サーバ装置、辞書ダウンロードシステム、変換候補語句の提示方法、情報処理方法、プログラム |
CN101826110A (zh) * | 2010-04-13 | 2010-09-08 | 北京大学 | 一种BitTorrent种子文件爬取方法 |
CN102831252A (zh) * | 2012-09-21 | 2012-12-19 | 北京奇虎科技有限公司 | 一种用于更新索引数据库的方法及装置、搜索方法和系统 |
CN102880607A (zh) * | 2011-07-15 | 2013-01-16 | 舆情(香港)有限公司 | 网络动态内容抓取方法及网络动态内容爬虫系统 |
CN102918532A (zh) * | 2010-06-01 | 2013-02-06 | 微软公司 | 在搜索结果排序中对垃圾的检测 |
CN103440287A (zh) * | 2013-08-14 | 2013-12-11 | 广东工业大学 | 一种基于产品信息结构化的Web问答检索系统 |
CN103617174A (zh) * | 2013-11-04 | 2014-03-05 | 同济大学 | 一种基于云计算的分布式搜索方法 |
CN103838824A (zh) * | 2014-01-23 | 2014-06-04 | 北京东方泰坦科技股份有限公司 | 一种用于空间信息分析的云计算中间件技术 |
CN104731895A (zh) * | 2015-03-18 | 2015-06-24 | 北京京东尚科信息技术有限公司 | 自动应答的方法和装置 |
CN106547914A (zh) * | 2016-11-25 | 2017-03-29 | 国信优易数据有限公司 | 一种数据采集管理系统及其方法 |
CN107341274A (zh) * | 2017-08-31 | 2017-11-10 | 郑州云海信息技术有限公司 | 一种全文搜索引擎及数据检索方法 |
CN108182595A (zh) * | 2017-12-19 | 2018-06-19 | 山东浪潮云服务信息科技有限公司 | 一种制定运营策略方法及装置 |
CN108229810A (zh) * | 2017-12-29 | 2018-06-29 | 中国科学院自动化研究所 | 基于网络信息资源的行业分析系统及方法 |
CN108255972A (zh) * | 2017-12-27 | 2018-07-06 | 浪潮通用软件有限公司 | 一种全文检索方法及系统 |
CN109597855A (zh) * | 2018-11-29 | 2019-04-09 | 北京邮电大学 | 基于大数据驱动的领域知识图谱构建方法及系统 |
CN110704713A (zh) * | 2019-09-26 | 2020-01-17 | 国家计算机网络与信息安全管理中心 | 一种基于多数据源的论文数据爬取方法及系统 |
CN111309877A (zh) * | 2018-12-12 | 2020-06-19 | 北京文因互联科技有限公司 | 一种基于知识图谱的智能问答方法及系统 |
CN111813443A (zh) * | 2020-07-28 | 2020-10-23 | 南京大学 | 一种用JavaFX进行代码样例自动填充的方法和工具 |
CN112214658A (zh) * | 2019-07-10 | 2021-01-12 | 武汉朗立创科技有限公司 | 基于网络爬虫的数据分析系统 |
CN112417875A (zh) * | 2020-11-17 | 2021-02-26 | 深圳平安智汇企业信息管理有限公司 | 配置信息的更新方法、装置、计算机设备及介质 |
CN112749284A (zh) * | 2020-12-31 | 2021-05-04 | 平安科技(深圳)有限公司 | 知识图谱构建方法、装置、设备及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107229714B (zh) * | 2017-05-31 | 2020-02-14 | 杭州宇为科技有限公司 | 一种基于分布式数据库的全文搜索引擎 |
-
2021
- 2021-10-22 CN CN202111231847.7A patent/CN113987146B/zh active Active
Patent Citations (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008305385A (ja) * | 2007-05-10 | 2008-12-18 | Sony Corp | 文字入力装置、サーバ装置、辞書ダウンロードシステム、変換候補語句の提示方法、情報処理方法、プログラム |
CN101826110A (zh) * | 2010-04-13 | 2010-09-08 | 北京大学 | 一种BitTorrent种子文件爬取方法 |
CN102918532A (zh) * | 2010-06-01 | 2013-02-06 | 微软公司 | 在搜索结果排序中对垃圾的检测 |
CN102880607A (zh) * | 2011-07-15 | 2013-01-16 | 舆情(香港)有限公司 | 网络动态内容抓取方法及网络动态内容爬虫系统 |
CN102831252A (zh) * | 2012-09-21 | 2012-12-19 | 北京奇虎科技有限公司 | 一种用于更新索引数据库的方法及装置、搜索方法和系统 |
CN103440287A (zh) * | 2013-08-14 | 2013-12-11 | 广东工业大学 | 一种基于产品信息结构化的Web问答检索系统 |
CN103617174A (zh) * | 2013-11-04 | 2014-03-05 | 同济大学 | 一种基于云计算的分布式搜索方法 |
CN103838824A (zh) * | 2014-01-23 | 2014-06-04 | 北京东方泰坦科技股份有限公司 | 一种用于空间信息分析的云计算中间件技术 |
CN104731895A (zh) * | 2015-03-18 | 2015-06-24 | 北京京东尚科信息技术有限公司 | 自动应答的方法和装置 |
CN106547914A (zh) * | 2016-11-25 | 2017-03-29 | 国信优易数据有限公司 | 一种数据采集管理系统及其方法 |
CN107341274A (zh) * | 2017-08-31 | 2017-11-10 | 郑州云海信息技术有限公司 | 一种全文搜索引擎及数据检索方法 |
CN108182595A (zh) * | 2017-12-19 | 2018-06-19 | 山东浪潮云服务信息科技有限公司 | 一种制定运营策略方法及装置 |
CN108255972A (zh) * | 2017-12-27 | 2018-07-06 | 浪潮通用软件有限公司 | 一种全文检索方法及系统 |
CN108229810A (zh) * | 2017-12-29 | 2018-06-29 | 中国科学院自动化研究所 | 基于网络信息资源的行业分析系统及方法 |
CN109597855A (zh) * | 2018-11-29 | 2019-04-09 | 北京邮电大学 | 基于大数据驱动的领域知识图谱构建方法及系统 |
CN111309877A (zh) * | 2018-12-12 | 2020-06-19 | 北京文因互联科技有限公司 | 一种基于知识图谱的智能问答方法及系统 |
CN112214658A (zh) * | 2019-07-10 | 2021-01-12 | 武汉朗立创科技有限公司 | 基于网络爬虫的数据分析系统 |
CN110704713A (zh) * | 2019-09-26 | 2020-01-17 | 国家计算机网络与信息安全管理中心 | 一种基于多数据源的论文数据爬取方法及系统 |
CN111813443A (zh) * | 2020-07-28 | 2020-10-23 | 南京大学 | 一种用JavaFX进行代码样例自动填充的方法和工具 |
CN112417875A (zh) * | 2020-11-17 | 2021-02-26 | 深圳平安智汇企业信息管理有限公司 | 配置信息的更新方法、装置、计算机设备及介质 |
CN112749284A (zh) * | 2020-12-31 | 2021-05-04 | 平安科技(深圳)有限公司 | 知识图谱构建方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113987146A (zh) | 2022-01-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109992645B (zh) | 一种基于文本数据的资料管理系统及方法 | |
AU2005209586B2 (en) | Systems, methods, and interfaces for providing personalized search and information access | |
US7693817B2 (en) | Sensing, storing, indexing, and retrieving data leveraging measures of user activity, attention, and interest | |
US11860914B1 (en) | Natural language database generation and query system | |
US11861320B1 (en) | Text reduction and analysis interface to a text generation modeling system | |
CN110888990A (zh) | 文本推荐方法、装置、设备及介质 | |
CN109614504A (zh) | 一种互联网电子书的管理系统及方法 | |
WO2007043893A2 (en) | Information access with usage-driven metadata feedback | |
CN101196900A (zh) | 一种基于元数据的信息检索方法 | |
CN111061828B (zh) | 一种数字图书馆知识检索方法及装置 | |
CN113190687B (zh) | 知识图谱的确定方法、装置、计算机设备及存储介质 | |
CN116414961A (zh) | 基于军事领域知识图谱的问答方法和系统 | |
CN114356967A (zh) | 一种专业情报搜集分析应用平台 | |
CN112328738A (zh) | 语音检索方法、终端设备及可读存储介质 | |
CN116010552A (zh) | 一种基于关键词词库的工程造价数据解析系统及其方法 | |
CN118377881A (zh) | 智能问答方法、系统、装置、计算机设备和可读存储介质 | |
KR20110133909A (ko) | 모든 자연어 표현의 각각의 의미마다 별도의 용어를 동적으로 생성하는 방법 및 이를 기반으로 하는 사전 관리기,문서작성기, 용어 주석기, 검색 시스템 및 문서정보체계 구축장치 | |
US12067366B1 (en) | Generative text model query system | |
JP2000231570A (ja) | インターネット情報処理装置、インターネット情報処理方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
CN111933141A (zh) | 一种基于大数据的人工智能语音交互系统 | |
CN113987146B (zh) | 一种电力内网专用的智能问答系统 | |
CN116956818A (zh) | 文本素材的处理方法、装置、电子设备以及存储介质 | |
Yijing | Intelligent customer service system design based on natural language processing | |
de Campos et al. | An integrated system for managing the Andalusian Parliament's digital library | |
WO2019142094A1 (en) | System and method for semantic text search |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |