CN111767365A - 文档检索设备及方法 - Google Patents
文档检索设备及方法 Download PDFInfo
- Publication number
- CN111767365A CN111767365A CN201910183304.9A CN201910183304A CN111767365A CN 111767365 A CN111767365 A CN 111767365A CN 201910183304 A CN201910183304 A CN 201910183304A CN 111767365 A CN111767365 A CN 111767365A
- Authority
- CN
- China
- Prior art keywords
- retrieval
- document
- search
- request
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3347—Query execution using vector based model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/338—Presentation of query results
Abstract
本发明提供一种文档检索设备,用于根据用户发出的检索请求来提供检索服务,其特征在于,包括:文档存储部、文档名向量存储部、请求获取部、请求处理部、相似度计算部、向量选定部以及获取输出部,文档存储部存储有含有文档名以及相应的文档内容的多个文档文件,文档名向量存储部存储有文档名以及与该文档名相对应的文档名向量,一旦请求获取部获取到用户的检索请求,请求处理部就处理该检索请求获得检索向量,相似度计算部根据检索向量以及文档名向量依次计算检索向量与各个文档名向量之间的相似度,向量选定部根据相似度选定与检索向量相似的文档名向量,获取输出部根据选定的文档名向量获取对应的文档文件作为检索结果进行输出。
Description
技术领域
本发明属于信息检索领域,具体涉及一种文档检索设备及方法。
背景技术
在大型机构(企业、学校、机关单位等)的日常经营中,往往会产生很多资料,并且目前这些资料大都以电子文档的形式存在。由于这些资料数据量庞大且通常不具有统一规格,当需要查找特定内容的资料时,新加入的人员往往不清楚需要的资料对应于何种文档,也不清楚相应的文档存储在何处,因而难以找到;即使是有经验的人员,在查找一些不常用或是不熟悉的资料时,也需要花费很长时间。
为了方便机构内部人员查找电子文档,现有的一些文档管理系统带有检索服务,但这些检索服务通常基于现有的文档检索建立,其往往只支持关键词检索,当使用者输入的关键词不一致时就检索不到需要的文档。然而,实际使用时,机构内部人员通常只能明确自己需要查找哪方面的文档,但无法确定相关文档的名称,检索过程中就不得不多次检索并不停地更换关键词,甚至在多次更换关键词检索后也无法找到需要的文档,这就极大地降低了工作效率。
发明内容
本发明是为了解决上述问题而进行的,目的在于提供一种让员工在不清楚具体名称时也能快速地从机构内大量的文档文件中获取所需文档的文档检索设备及方法。
本发明为了实现上述目的,采用了以下技术方案:
本发明提供一种文档检索设备,用于根据用户发出的检索请求来提供检索服务,其特征在于,包括:文档存储部、文档名向量存储部、请求获取部、请求处理部、相似度计算部、向量选定部以及获取输出部,文档存储部存储有含有文档名以及相应的文档内容的多个文档文件,文档名向量存储部存储有文档名以及与该文档名相对应并且基于预定的分词规则、预定的词向量生成规则和预定的词权重值进行计算而得到的文档名向量,一旦请求获取部获取到用户的检索请求,请求处理部就基于分词规则对该检索请求的检索内容进行分词,得到检索语分词,基于词向量生成规则生成各个检索语分词的词向量作为检索词向量,并根据检索词向量及对应的词权重值计算得到检索内容对应的向量作为检索向量,相似度计算部根据检索向量以及文档名向量存储部中的文档名向量依次计算检索向量与各个文档名向量之间的相似度,向量选定部根据相似度以及预定的相似向量选定规则选定与检索向量相似的文档名向量,获取输出部根据选定的文档名向量从文档名向量存储部中获取对应的文档名,并根据获取的文档名从文档存储部中获取对应的文档文件作为检索结果进行输出。
进一步,本发明还提供了一种文档检索方法,用于根据用户发出的检索请求来提供检索服务,其特征在于,包括如下步骤:文档存储步骤,存储含有文档名以及相应的文档内容的多个文档文件;文档名向量预先计算存储步骤,预先根据文档名并且基于预定的分词规则、预定的词向量生成规则和预定的词权重值进行计算,得到文档名向量并进行存储;检索向量计算步骤,一旦请求获取部获取到用户的检索请求,就基于分词规则对该检索请求的检索内容进行分词,得到检索语分词,基于词向量生成规则生成各个检索语分词的词向量作为检索词向量,并根据检索词向量及对应的词权重值计算得到检索内容对应的向量作为检索向量;相似度计算步骤,根据检索向量以及文档名向量依次计算检索向量与各个文档名向量之间的相似度;文档名向量选定步骤,根据相似度以及预定的相似向量选定规则选定与检索向量相似的文档名向量;检索结果输出步骤,根据选定的文档名向量获取对应的文档名,并根据获取的文档名获取对应的文档文件作为检索结果进行输出。
发明作用与效果
根据本发明的文档检索设备及方法,由于文档名向量存储部存储有与机构内所有文档文件相对应的文档名以及文档名向量,请求获取部对用户的检索请求进行获取,并通过请求处理部对检索请求进行处理从而获得对应的检索向量,因此能够通过相似度计算部计算检索向量与对应文档文件的文档名向量之间的相似度,从而通过向量选定部以及获取输出部获得与检索请求含义相接近的文档文件;同时,由于文档文件的文档名向量为预先进行计算并存储的,因此在进行检索处理时相似度计算部能够直接调用预存的文档名向量进行相似度计算,从而更快地进行响应。因此,本实施例的文档检索设备能够让机构内部的员工(即用户)快速地从公司内堆积的大量文档文件中获取自己希望找到却不知道详细名称的相应文档文件,实现了机构内部的员工对文档的高效率检索,从而提高工作效率。
附图说明
图1是本发明实施例中文档检索设备的结构框图;以及,
图2是本发明实施例中员工进行检索查询的流程图。
具体实施方式
为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,以下结合实施例及附图对本发明的文档检索设备作具体阐述。
本发明提供了一种文档检索设备,用于根据用户发出的检索请求来提供检索服务,其特征在于,包括:文档存储部、文档名向量存储部、请求获取部、请求处理部、相似度计算部、向量选定部以及获取输出部,文档存储部存储有含有文档名以及相应的文档内容的多个文档文件,文档名向量存储部存储有文档名以及与该文档名相对应并且基于预定的分词规则、预定的词向量生成规则和预定的词权重值进行计算而得到的文档名向量,一旦请求获取部获取到用户的检索请求,请求处理部就基于分词规则对该检索请求的检索内容进行分词,得到检索语分词,基于词向量生成规则生成各个检索语分词的词向量作为检索词向量,并根据检索词向量及对应的词权重值计算得到检索内容对应的向量作为检索向量,相似度计算部根据检索向量以及文档名向量存储部中的文档名向量依次计算检索向量与各个文档名向量之间的相似度,向量选定部根据相似度以及预定的相似向量选定规则选定与检索向量相似的文档名向量,获取输出部根据选定的文档名向量从文档名向量存储部中获取对应的文档名,并根据获取的文档名从文档存储部中获取对应的文档文件作为检索结果进行输出。
作为第一种实施形态,文档检索设备还包括:语种判定部,用于对请求获取部获取到的检索请求所对应的语种进行判定,得出该检索请求的语种,使得请求处理部根据判定出的语种所对应的分词规则对该检索请求的检索内容进行分词,得到检索语分词。
在第一种实施形态中,还可以具有这样的技术特征:其中,检索结果还包含有获取输出部根据语种生成的提示内容。
在第一种实施形态中,还可以具有这样的技术特征:其中,用户为机构内部的员工,文档检索设备还包括:员工信息存储部、检索记录存储部、检索获取部以及检索请求判定部,其中,员工信息存储部存储有与员工相对应的员工信息以及该员工在机构内部中所在部门的部门信息,检索记录存储部存储有检索结果、与该检索结果对应的检索请求以及发送该检索请求员工的员工信息,当请求获取部获取到员工的检索请求时,检索获取部就根据与检索请求对应的员工信息检索员工信息存储部,并获取与该员工对应的部门信息下所有的员工信息作为关联员工信息,根据关联员工信息依次查询检索记录存储部并获取与各个关联员工信息对应的检索请求作为关联检索请求,检索请求判定部依次判定检索请求与关联检索请求是否相似,一旦检索请求判定部判定相似,获取输出部根据与被判定相似的关联检索请求从检索记录存储部中获取对应的检索结果并进行输出。
在第一种实施形态中,还可以具有这样的技术特征:其中,相似向量选定规则为排序选定规则或阈值选定规则,排序选定规则为:将相似度按照由高至低的顺序进行排序形成相似序列,并按照从前往后的顺序将该相似序列中预定个数的相似度所对应的文档名向量作为与检索向量相似的文档名向量;阈值选定规则为:将相似度超过预定阈值的所有相似度所对应的文档名向量作为与检索向量相似的文档名向量。
在第一种实施形态中,还可以具有这样的技术特征:其中,文档检索设备与用于接收用户向预定的邮件地址发送邮件的邮箱服务器通信连接,请求获取部具有获取通信单元、请求判定单元、邮件暂存单元以及请求获取单元,获取通信单元根据预定的邮件获取间隔以及邮件地址从邮件服务器中获取邮件作为请求邮件,请求判定单元基于预定的邮件判定规则判定请求邮件是否为包含检索请求的检索邮件,邮件暂存单元对检索邮件进行暂存,请求获取单元从邮件暂存单元中获取检索邮件的检索请求。
作为第二种实施形态,文档检索设备还包括:录音部,用于对用户的说话语音进行录音获得用户的与检索请求对应的语音;以及语音转换部,对录音部获取的与检索请求对应的语音进行语音转换从而获得检索请求。
本发明还提供了一种文档检索方法,用于根据用户发出的检索请求来提供检索服务,其特征在于,包括如下步骤:文档存储步骤,存储含有文档名以及相应的文档内容的多个文档文件;文档名向量预先计算存储步骤,预先根据文档名并且基于预定的分词规则、预定的词向量生成规则和预定的词权重值进行计算,得到文档名向量并进行存储;检索向量计算步骤,一旦请求获取部获取到用户的检索请求,就基于分词规则对该检索请求的检索内容进行分词,得到检索语分词,基于词向量生成规则生成各个检索语分词的词向量作为检索词向量,并根据检索词向量及对应的词权重值计算得到检索内容对应的向量作为检索向量;相似度计算步骤,根据检索向量以及文档名向量依次计算检索向量与各个文档名向量之间的相似度;文档名向量选定步骤,根据相似度以及预定的相似向量选定规则选定与检索向量相似的文档名向量;检索结果输出步骤,根据选定的文档名向量获取对应的文档名,并根据获取的文档名获取对应的文档文件作为检索结果进行输出。
<实施例>
图1是本发明实施例中文档检索系统的结构框图。
如图1所示,文档检索设备1为机构内部管理服务器的一部分,该文档检索设备1与邮件服务器2通过通信网络3相通信连接。
本实施例中,文档检索设备1用于根据机构内部的员工发出的检索请求来提供检索服务,邮件服务器2由邮件服务商所持有,用于提供邮件收发功能以及邮件检索功能。本实施例的情况下,机构内部的员工即使用检索服务的用户。
文档检索设备1包括文档存储部11、文档名向量存储部12、文档名处理部13、请求获取部14、语种判定部15、请求处理部16、相似度计算部17、向量选定部18、获取输出部19、员工信息存储部20、检索记录存储部21、检索获取部22、检索请求判定部23、检索侧通信部24以及检索侧控制部25。
其中,检索侧通信部24用于进行文档检索设备1的各个构成部分之间以及文档检索设备1与其他设备之间的数据交换,检索侧控制部25用于对文档检索设备1的各个构成部分的工作进行控制。
文档存储部11用于存储含有文档名以及相应的文档内容的多个文档文件。该文档文件为机构内部在日常经营、活动时产生的文档文件(例如图片、文档等文件);本实施例中,文档检索设备1还可以通过局域网与机构内部的不同人员所使用的计算机通信连接,使得机构内部人员可以通过计算机将工作中形成的工作文件作为文档文件发送给文档检索设备1从而让文档存储部11存储。
文档名向量存储部12存储有文档名以及与该文档名相对应并且基于预定的分词规则、预定的词向量生成规则和预定的词权重值进行计算而得到的文档名向量。
文档名处理部13根据预定的文档更新时间间隔获取文档存储部11中所有存储的文档名,并根据获取的文档名生成文档名向量从而更新文档名向量存储部12中存储的文档名以及文档名向量。
本实施例中,文档名向量为文档名处理部13通过向量生成方法对文档名进行处理得到的,该向量生成方法的具体步骤如下:
步骤T1,基于分词规则对文档名进行分词得到文档名分词。
本实施例中,分词规则与各个文档名的语种相对应,即,对于中文语种,采用基于结巴分词的分词规则;对于日文语种,采用基于MeCab的分词规则;对于拉丁语系的语种(例如英语),利用单词之间的空格进行分词。每个文档名通过分词处理形成一组文档名分词,例如,文档名《出差管理规定》为中文语种,进行分词形成文档名分词{出差,管理,规定}。
步骤T2,基于词向量生成规则生成各个文档名分词的词向量作为文档词向量。
本实施例中,词向量生成规则为基于Word2vec的分词方法,通过FastText模型计算每组文档名分词下各个分词所对应的词向量V(词向量维度为300维度,每个词向量在每个维度上对应的数值为-1.0~1.0的浮点数,例如[0.42144,-0.8224,0.25412,.....])。
步骤T3,根据文档词向量及对应且预定的词权重值计算得到与文档名对应的向量作为文档名向量。
本实施例中,词权重值通过所有的文档名分词进行词频统计后的词频设定,词频统计的方法为基于TF-IDF模型对文档名向量存储部12中存储的所有文档名所对应的文档名分词进行词频统计,并将统计后的对应各个分词的词频作为词权重值,例如,[出差:3.251,管理:2.094,规定:6.225,……,交通费:3.225]。在其他实施例中,词权重值还能够通过现有的词频统计库统计的词频进行设定。
本实施例中,文档名处理部13具有一个权重表存储单元,用于存储所有的分词以及对应的词权重值。
本实施例中,文档名向量通过文档词向量以及相应的词权重值进行计算,例如,{A,B,C}三个词向量分别为Va,Vb,Vc,则,ABC这个句子对应的句向量为:
V=Va*Fa+Vb*Fb+Vc*Fc
其中,Fa,Fb,Fc分别对应A,B,C这三个词的词权重值。
请求获取部14用于获取员工的检索请求。本实施例中,员工的检索请求为通过邮箱向特定的邮箱地址发送的检索邮件,请求获取部14包含获取通信单元、请求判定单元、邮件暂存单元以及请求获取单元。
获取通信单元用于根据预定的邮件获取间隔以及上述特定的邮箱地址从邮件服务器中获取邮件作为请求邮件。
本实施例中,在文档检索设备1启动后,获取通信单元就定时(即根据邮件获取间隔)向邮件服务器2发送一个邮件获取请求,并从邮件服务器2接收邮件。在获取过程中,获取通信单元还能够判断邮件是否为已经接收过的邮件,从而避免重复获取。本实施例的邮件获取间隔为5分钟。
请求判定单元用于基于预定的邮件判定规则判定接收的邮件是否为包含检索请求的检索邮件。
本实施例中,邮件判定规则为判定邮件中包括检索判定标记,例如,“<检索>”为检索判定标记,则员工在发送的邮件内容(包括邮件名称和邮件正文)中具有该检索判定标记时,请求判定单元就判定该邮件为检索邮件,并将该邮件中检索判定标记外的邮件内容作为检索请求的检索内容。
邮件暂存单元用于对待处理的检索邮件进行暂存。待处理的检索邮件为没有生成检索结果且未被检索记录存储部21存储的检索邮件。
请求获取单元用于获取邮件暂存单元中待处理的检索邮件,使得检索侧控制部25控制以下与检索请求处理相关的构成部分依次对这些待处理的检索邮件进行处理。
语种判定部15用于对请求获取部14获取到的检索请求所对应的语种进行判定得出该检索请求的语种。
请求处理部16用于通过向量生成方法对检索请求进行处理从而获得对应该检索请求的检索向量。
本实施例中,请求处理部16所采用的向量生成方法与步骤T1至步骤T3相似,即:对应步骤T1时,请求处理部16根据与语种判定部15判定出的语种所对应的分词规则对检索请求的检索内容进行分词得到检索语分词;对应步骤T2时,请求处理部16基于词向量生成规则生成各个检索语分词的词向量作为检索词向量;对应步骤T3时,请求处理部16根据检索词向量及对应的词权重值(从权重表存储单元中获取,若检索语分词中有分词不在权重表存储单元中,则取权重表存储单元中词权重值的最大值作为该分词的词权重值)计算得到检索内容对应的向量作为检索向量。
本实施例中,请求处理部16采用的分词规则以及词向量生成规则与文档名处理部12采用的完全相同。
相似度计算部17用于根据检索向量以及文档名向量存储部12中的文档名向量依次计算检索向量与各个文档名向量之间的相似度。
本实施例中,相似度为检索向量与文档名向量之间的余弦相似度,该余弦相似度越高则检索内容与文档名之间的相似程度越高。若检索内容ABC对应的检索向量为v,文档名向量存储部12中存储的所有文档名向量的集合U为[u1,u2,u3,...,un],相似度计算部17依次将v与U中的向量两两计算余弦相似度,最终得到的相似度如表1所示(表1中,“文档编号”表示机构内部的文档文件的编号):
表1:检索内容“金钱相关规定”与以下文档的相似度(由高至低排列)
文档编号 | 文档名 | 余弦相似度 |
3 | 交通费报销流程 | 0.69 |
1 | 出差管理规定 | 0.45 |
2 | 环境教育管理规定 | 0.23 |
…… | …… | …… |
向量选定部18用于根据相似度以及预定的相似向量选定规则选定与检索向量相似的文档名向量。
本实施例中,相似向量选定规则为排序选定规则,该排序选定规则为将相似度按照由高至低的顺序进行排序形成相似序列,并按照从前往后的顺序将该相似序列中预定个数的相似度所对应的文档名向量作为与检索向量相似的文档名向量。例如,如表1所示,在对检索内容“金钱相关规定”进行相似度计算后,当预定个数的数量为2时,向量选定部18选定相似序列中相似度最高的2个相似度所对应的文档名向量(即,与表1中文档名“交通费报销流程”以及“出差管理规定”相对应的文档名向量)。
获取输出部19根据选定的文档名向量从文档名向量存储部12中获取对应的文档名,并根据获取的文档名从文档存储部11中获取对应的文档文件作为检索结果进行输出。
本实施例中,获取输出部19生成的检索结果为根据语种相应的语系所生成的返信邮件,该返信邮件包含检索出的文档文件以及与语种判定部判定的语种相应的提示内容(例如,邮件正文包含“您需要的文档已找到”的提示内容),在返信邮件生成后,获取输出部19就根据检索邮件的发信地址将返信邮件发送给员工。
在其他实施例中,获取输出部19还能够获取与文档文件对应的保存路径作为检索结果,从而使得返信邮件在发送时仅发送保存路径,这样就让收到返信邮件的员工通过该保存路径自行访问管理服务器来获得对应保存路径的文档文件。由于邮件中不包含文档文件,因此能够避免文档文件在邮件服务器中留下记录,避免泄密。
员工信息存储部20用于存储与员工相对应的员工信息以及该员工在机构内部中所在部门的部门信息(例如部门名称或部门编号)。本实施例中,员工信息为员工的员工邮箱地址。
本实施例中,当请求获取单元获取一个邮件从而进行相应处理且获取输出部19生成对应的检索结果时,检索侧控制部25就控制检索记录存储部21将检索结果以及对应的检索请求进行存储,并控制邮件暂存单元删除对应的检索邮件。
检索记录存储部21用于在获取输出部19生成检索结果后,将检索结果、与该检索结果对应的检索请求以及发送该检索请求的邮箱地址进行对应存储。本实施例中,检索记录存储部21还存储有与检索请求相对应的检索向量。
检索获取部22用于在请求处理部16对新的检索请求(以下称当前检索请求)进行处理后,检索发送该当前检索请求的员工在同部门下的其他员工是否有过相似的检索请求从而直接获取已有的检索记录。即,根据与当前检索请求对应的员工邮箱地址检索员工信息存储部20并获取与该员工邮箱地址对应的员工相同部门的所有员工邮箱地址作为关联邮箱地址,根据关联邮箱地址对检索记录存储部21进行检索并获取与各个关联邮箱地址对应的检索请求作为关联检索请求。
本实施例中,检索获取部22还能够改变检索待判定检索请求时的时间范围,例如,设定时间范围为15天,则检索获取部22获取在15天内与该员工在同一部门下的所有检索请求。
检索请求判定部23用于判定检索请求与关联检索请求是否相似。若检索请求判定部23判定相似,获取输出部19根据被判定相似的关联检索请求从检索记录存储部21中获取对应的检索结果并进行输出;若检索请求判定部23判定不相似,检索侧控制部25就控制相似度计算部17开始计算当前检索请求所对应的检索向量与各个文档名向量之间的相似度,并控制与检索请求处理相关的构成部分对下一条待处理的检索邮件进行处理。
本实施例中,检索请求判定部23能够依次计算检索请求所对应的检索向量(由请求处理部16处理获取)以及关联检索请求所对应的检索向量(由检索获取部22从检索记录存储部21中检索获取)之间的相似度,从而根据相似度判定检索请求与关联检索请求是否相似。例如,在相似度大于0.9时判定两者是相似的。
图2是本发明实施例中员工进行检索查询的流程图。
员工在需要进行检索时根据用于检索的邮箱地址向邮件服务器2发送一份检索邮件,请求获取部14根据邮件获取间隔从邮箱服务器2获取新的检索邮件作为检索请求,检索侧控制部25按检索邮件的收信时间依次选择一个请求获取部14获取的检索请求作为当前检索请求并控制相应构成部分的进行处理,然后如图2所示,开始以下步骤:
步骤S1,语种判定部15对当前检索请求所对应的语种进行判定得出该当前检索请求的语种,然后进入步骤S2;
步骤S2,请求处理部16通过向量生成方法并根据步骤S1判定的语种对当前检索请求进行处理从而获得对应该当前检索请求的当前检索向量,然后进入步骤S3;
步骤S3,检索获取部22根据当前检索请求以及对应的员工邮箱地址对检索记录存储部21进行检索,从而获取与该员工邮箱地址对应的员工相同部门的所有员工邮箱地址作为关联邮箱地址,根据关联邮箱地址对检索记录存储部21进行检索并获取与各个关联邮箱地址对应的检索请求作为关联检索请求,然后进入步骤S4;
步骤S4,检索请求判定部23判定当前检索请求与各个步骤S3获取的关联检索请求是否相似,若判定相似则进入步骤S7,若判定不相似则进入步骤S5;
步骤S5,相似度计算部17根据步骤S2获取的当前检索向量以及文档名向量存储部12中存储的文档名向量,依次计算检索向量与各个文档名向量之间的相似度,然后进入步骤S6;
步骤S6,向量选定部18根据步骤S5中计算的相似度以及预定的相似向量选定规则选定与检索向量相似的文档名向量,然后进入步骤S7;
步骤S7,获取输出部19在步骤S4中判定为相似时从检索记录存储部21中获取判定相似的待判定检索请求所对应的检索结果并进行输出,在步骤S4中判定为不相似时根据步骤S6中选定的文档名向量对应的文档文件以及步骤S1中判定的语种生成检索结果并进行输出,然后进入结束状态。
实施例作用与效果
根据本实施例提供的文档检索系统,由于文档名向量存储部存储有与机构内所有文档文件相对应的文档名以及文档名向量,请求获取部对员工的检索请求进行获取,并通过请求处理部对检索请求进行处理从而获得对应的检索向量,因此能够通过相似度计算部计算检索向量与对应文档文件的文档名向量之间的相似度,从而通过向量选定部以及获取输出部获得与检索请求含义相接近的文档文件;同时,由于文档文件的文档名向量为预先进行计算并存储的,因此在进行检索处理时相似度计算部能够直接调用预存的文档名向量进行相似度计算,从而更快地进行响应。因此,本实施例的文档检索系统能够让员工快速地从公司内堆积的大量文档文件中获取自己希望找到却不知道详细名称的相应文档文件,实现了机构内部的员工对文档的高效率检索,从而提高工作效率。
实施例中,由于文档检索设备与邮件服务器通信连接,因此员工能够通过向邮件服务器发送一封含有检索请求的邮件从而获取检索服务。由于能够通过邮件进行检索,因此员工能够随时随地地发送检索邮件至预先设定的检索邮箱地址,从而让员工在有事进行外勤或是出差又急需公司内部文档时,为员工提供一种访问公司内部资料的获取方法。
实施例中,由于具有语种判定部对检索请求的语种进行判定,从而能够实现对不同语言的检索请求进行处理,同时获取输出部能够根据语种判定部判定出的语种生成对应语言的提示内容发送给员工,因此本实施例的文档检索设备能够支持多国语言以及跨语种的检索。
实施例中,在相似度计算部计算相似度时,由于需要对所有的文档名向量逐一进行计算,还由于大型机构内通常存储有大量的文档文件,因此每一次进行相似度的计算都需要消耗一定的时间。相对地,通过检索获取部对员工所属部门的相关员工的相关检索请求进行获取,并通过检索请求判定部对相关检索请求进行判定的计算量要远远小于相似度计算部的计算量。同时,由于同一部门的员工在一段时间内很可能会需要相同的文件资料进行参考,因此检索获取部根据员工所在的部门信息检索对应部门下其他员工是否有相似的检索请求,能够很好地避免重复性的计算过程,从而加快检索效率并减少计算量。
实施例中,相似向量选定规则为排序选定规则,在排序选定规则下获取输出部能够获取最接近员工检索需求的预定数量的文档文件,从而避免员工检索到的文档文件数量过多问题。
实施例中,由于请求获取部通过邮件服务器的邮件获取检索请求,因此在文档检索设备因意外重启时,也不会丢失员工的检索请求,并在启动后再次对检索请求进行处理,从而提高了文档检索设备的稳定性。
<变形例>
与实施例相比,本变形例的文档检索设备1不与邮件服务器2通信连接,而是与多个用户终端相通信连接,每个用户终端由具有不同员工所持有。用户终端具有录音部以及语音转换部。此时,文档检索系统100能够识别员工通过用户终端发送的语音并作为检索请求进行处理,大致过程如下。
录音部对员工的说话语音进行录音获得该员工的与检索请求对应的语音。本变形例中,录音部为文档检索设备1内置的或是与文档检索设备1连接的麦克风。
语音转换部对录音部获取的与检索请求对应的语音进行语音转换从而获得检索请求。本变形例中,语音转换部采用现有技术中的语音识别技术对语音进行识别从而转换为文本形式的检索请求。
对检索请求进行处理的过程与实施例相同,在此不再赘述。
获取输出部19根据获取对应的文档文件作为检索结果进行输出,并根据语种生成相应的提示语音提示员工。
变形例中,由于能够通过录音部对员工的语音请求进行获取,进一步通过语音转换部将员工的语音请求转换为检索请求,从而更方便员工进行检索。
上述实施例与变形例仅用于举例说明本发明的具体实施方式,而本发明不限于上述实施例的描述范围。
实施例中,相似向量选定规则为排序选定规则。在其他实施例中,相似向量选定规则还能够是阈值选定规则,即,将相似度超过预定阈值的所有相似度所对应的文档名向量作为与检索向量相似的文档名向量。例如,预定阈值为0.6,则采用阈值选定规则时,向量选定部就选定所有超过0.6的相似度所对应的文档名向量。在其他实施例中,相似向量选定规则还能够是将排序选定规则以及阈值选定规则结合使用的规则。例如,获取超过预定阈值且相似度最高的预定数量的相似度。
实施例中,请求获取部仅根据一个特定的邮箱地址从邮件服务器获取请求邮件。在其他实施例中,也可以获取与机构相关联的全部邮箱地址的邮件(例如,一些机构内部有多个不同的办公邮箱,由于一部分邮件也可能作为资料文档进行存储,因此文档检索设备可以从各个不同的邮箱地址中获取邮件并作为文档文件存储至文档存储部),这种情况下,邮件判定规则还可以是根据接收邮箱的地址进行判定,即,设定地址A为检索地址,则员工发送给A地址的所有邮件都视为检索邮件。
实施例中,文档更新时间间隔以及邮件获取间隔为预先设定。在其他实施例中,文档检索设备还可以与管理设备通信连接,管理人员通过管理设备输入相关参数从而对上述的文档更新时间间隔以及邮件获取间隔进行设定。
实施例中,检索获取部获取发送当前检索请求的员工在同部门下的其他员工是否有过相似的检索请求(即对同一部门下的其他员工的检索请求进行检索)。在其他实施例中,员工信息存储部还能够存储有岗位信息(或是项目编号),从而让检索获取部根据对同一岗位(或是同一项目编号)下的其他员工的检索请求进行检索。
实施例中,当检索请求判定部判定当前检索请求与关联检索请求不相似时,检索侧控制部控制相似度计算部开始对当前检索请求的相似度进行计算。在其他实施例中,检索获取部以及检索请求判定部进行的处理过程能够与相似度计算部进行的处理过程并行处理,从而在找不到关联检索请求时避免检索速度受到影响。在此情况下,当检索请求判定部判定当前检索请求与关联检索请求相似时,检索侧控制部就控制获取输出部输出检索结果并控制相似度计算部停止计算,并控制相关构件对下一个检索请求进行处理。
实施例中,文档检索设备是机构内部管理服务器的一部分,用于为机构内部的员工提供检索服务。在其他实施例中,文档检索设备还可以为其他的用户提供检索服务,例如,为非机构内部所属的外来客户提供有限制的检索服务(即外来客户只能对机构中公开部分的文档进行检索)。
实施例中,文档检索设备是机构内部管理服务器的一部分,用于为机构内部的员工提供检索服务。在其他实施例中,文档检索设备还可以是其他文档服务器的一部分,用于为用户提供检索服务,例如,在公共图书馆的图书服务器中设置本发明的文档检索设备,从而让公众用户查询图书服务器中存储的图书文档。
Claims (8)
1.一种文档检索设备,用于根据用户发出的检索请求来提供检索服务,其特征在于,包括:
文档存储部、文档名向量存储部、请求获取部、请求处理部、相似度计算部、向量选定部以及获取输出部,
所述文档存储部存储有含有文档名以及相应的文档内容的多个文档文件,
所述文档名向量存储部存储有所述文档名以及与该文档名相对应并且基于预定的分词规则、预定的词向量生成规则和预定的词权重值进行计算而得到的文档名向量,
一旦所述请求获取部获取到所述用户的检索请求,所述请求处理部就基于所述分词规则对该检索请求的检索内容进行分词得到检索语分词,基于所述词向量生成规则生成各个所述检索语分词的词向量作为检索词向量,并根据所述检索词向量及对应的所述词权重值计算得到所述检索内容对应的向量作为检索向量,
所述相似度计算部根据所述检索向量以及所述文档名向量存储部中的所述文档名向量依次计算所述检索向量与各个所述文档名向量之间的相似度,
所述向量选定部根据所述相似度以及预定的相似向量选定规则选定与所述检索向量相似的所述文档名向量,
所述获取输出部根据选定的所述文档名向量从所述文档名向量存储部中获取对应的所述文档名,并根据获取的所述文档名从所述文档存储部中获取对应的所述文档文件作为检索结果进行输出。
2.根据权利要求1所述的文档检索设备,其特征在于,还包括:
语种判定部,用于对所述请求获取部获取到的所述检索请求所对应的语种进行判定得出该检索请求的语种,使得所述请求处理部根据判定出的所述语种所对应的所述分词规则对该检索请求的检索内容进行分词得到检索语分词。
3.根据权利要求2所述的文档检索系统,其特征在于:
其中,所述检索结果还包含有所述获取输出部根据所述语种生成的提示内容。
4.根据权利要求1所述的文档检索设备,其特征在于,
其中,所述用户为机构内部的员工,
还包括:员工信息存储部、检索记录存储部、检索获取部以及检索请求判定部,
所述员工信息存储部存储有与所述员工相对应的员工信息以及该员工在所述机构内部中所在部门的部门信息,
所述检索记录存储部存储有所述检索结果、与该检索结果对应的所述检索请求以及发送该检索请求的所述员工的所述员工信息,
当所述请求获取部获取到所述员工的检索请求时,所述检索获取部就根据与所述检索请求对应的所述员工信息检索所述员工信息存储部并获取与该员工对应的所述部门信息下所有的所述员工信息作为关联员工信息,根据所述关联员工信息依次检索所述检索记录存储部并获取与各个所述关联员工信息对应的所述检索请求作为关联检索请求,
所述检索请求判定部依次判定所述检索请求与所述关联检索请求是否相似,
一旦所述检索请求判定部判定相似,所述获取输出部根据与被判定相似的所述关联检索请求从检索记录存储部中获取对应的所述检索结果并进行输出。
5.根据权利要求1所述的文档检索设备,其特征在于:
其中,所述相似向量选定规则为排序选定规则或阈值选定规则,
所述排序选定规则为:将所述相似度按照由高至低的顺序进行排序形成相似序列,并按照从前往后的顺序将该相似序列中预定个数的所述相似度所对应的所述文档名向量作为与所述检索向量相似的所述文档名向量;
所述阈值选定规则为:将所述相似度超过预定阈值的所有所述相似度所对应的所述文档名向量作为与所述检索向量相似的所述文档名向量。
6.根据权利要求1所述的文档检索设备,其特征在于:
其中,所述文档检索设备与用于接收所述用户向预定的邮件地址发送邮件的邮箱服务器通信连接,
所述请求获取部具有获取通信单元、请求判定单元、邮件暂存单元以及请求获取单元,
所述获取通信单元根据预定的邮件获取间隔以及所述邮件地址从所述邮件服务器中获取所述邮件作为请求邮件,
所述请求判定单元基于预定的邮件判定规则判定所述请求邮件是否为包含所述检索请求的检索邮件,
所述邮件暂存单元对所述检索邮件进行暂存,
所述请求获取单元从所述邮件暂存单元中获取所述检索邮件的所述检索请求。
7.根据权利要求1所述的文档检索方法,其特征在于,还包括:
录音部,用于对所述用户的说话语音进行录音获得所述用户的与所述检索请求对应的语音;以及
语音转换部,对所述录音部获取的与所述检索请求对应的所述语音进行语音转换从而获得所述检索请求。
8.一种文档检索方法,用于根据用户发出的检索请求来提供检索服务,其特征在于,包括如下步骤:
文档存储步骤,存储含有文档名以及相应的文档内容的多个文档文件;
文档名向量预先计算存储步骤,预先根据所述文档名并且基于预定的分词规则、预定的词向量生成规则和预定的词权重值进行计算得到文档名向量并进行存储;
检索向量计算步骤,一旦所述请求获取部获取到所述用户的检索请求,就基于所述分词规则对该检索请求的检索内容进行分词得到检索语分词,基于所述词向量生成规则生成各个所述检索语分词的词向量作为检索词向量,并根据所述检索词向量及对应的所述词权重值计算得到所述检索内容对应的向量作为检索向量;
相似度计算步骤,根据所述检索向量以及所述文档名向量依次计算所述检索向量与各个所述文档名向量之间的相似度;
文档名向量选定步骤,根据所述相似度以及预定的相似向量选定规则选定与所述检索向量相似的所述文档名向量;
检索结果输出步骤,根据选定的所述文档名向量获取对应的所述文档名,并根据获取的所述文档名获取对应的所述文档文件作为检索结果进行输出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910183304.9A CN111767365A (zh) | 2019-03-12 | 2019-03-12 | 文档检索设备及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910183304.9A CN111767365A (zh) | 2019-03-12 | 2019-03-12 | 文档检索设备及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111767365A true CN111767365A (zh) | 2020-10-13 |
Family
ID=72718011
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910183304.9A Pending CN111767365A (zh) | 2019-03-12 | 2019-03-12 | 文档检索设备及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111767365A (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102096667A (zh) * | 2009-12-09 | 2011-06-15 | 高文龙 | 一种信息检索方法及系统 |
CN102449654A (zh) * | 2009-09-30 | 2012-05-09 | 乐天株式会社 | 建议不存在于图像内的物品的系统 |
CN104008171A (zh) * | 2014-06-03 | 2014-08-27 | 中国科学院计算技术研究所 | 一种法律数据库构建方法及法律检索服务方法 |
CN105653562A (zh) * | 2014-12-02 | 2016-06-08 | 阿里巴巴集团控股有限公司 | 一种文本内容与查询请求之间相关性的计算方法及装置 |
CN106095737A (zh) * | 2016-06-07 | 2016-11-09 | 杭州凡闻科技有限公司 | 文档相似度计算方法及相似文档全网检索跟踪方法 |
CN106407250A (zh) * | 2015-07-28 | 2017-02-15 | 阿里巴巴集团控股有限公司 | 信息查询方法、装置、系统、服务器和客户端 |
CN108038096A (zh) * | 2017-11-10 | 2018-05-15 | 平安科技(深圳)有限公司 | 知识库文档快速检索方法、应用服务器计算机可读存储介质 |
-
2019
- 2019-03-12 CN CN201910183304.9A patent/CN111767365A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102449654A (zh) * | 2009-09-30 | 2012-05-09 | 乐天株式会社 | 建议不存在于图像内的物品的系统 |
CN102096667A (zh) * | 2009-12-09 | 2011-06-15 | 高文龙 | 一种信息检索方法及系统 |
CN104008171A (zh) * | 2014-06-03 | 2014-08-27 | 中国科学院计算技术研究所 | 一种法律数据库构建方法及法律检索服务方法 |
CN105653562A (zh) * | 2014-12-02 | 2016-06-08 | 阿里巴巴集团控股有限公司 | 一种文本内容与查询请求之间相关性的计算方法及装置 |
CN106407250A (zh) * | 2015-07-28 | 2017-02-15 | 阿里巴巴集团控股有限公司 | 信息查询方法、装置、系统、服务器和客户端 |
CN106095737A (zh) * | 2016-06-07 | 2016-11-09 | 杭州凡闻科技有限公司 | 文档相似度计算方法及相似文档全网检索跟踪方法 |
CN108038096A (zh) * | 2017-11-10 | 2018-05-15 | 平安科技(深圳)有限公司 | 知识库文档快速检索方法、应用服务器计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108920716B (zh) | 基于知识图谱的数据检索与可视化系统及方法 | |
KR101099278B1 (ko) | 명명된 엔티티 목록 생성기, 명명된 엔티티 모델 생성 방법 및 컴퓨터 판독가능 기록 매체 | |
US7415409B2 (en) | Method to train the language model of a speech recognition system to convert and index voicemails on a search engine | |
CN111339421A (zh) | 基于云技术的信息搜索的方法、装置、设备及存储介质 | |
US8126897B2 (en) | Unified inverted index for video passage retrieval | |
CN109508458B (zh) | 法律实体的识别方法及装置 | |
CN110297880B (zh) | 语料产品的推荐方法、装置、设备及存储介质 | |
CN109299040B (zh) | 一种基于大数据的文件存储空间智能分配方法 | |
Hauff et al. | Placing images on the world map: a microblog-based enrichment approach | |
CN109582847B (zh) | 一种信息处理方法及装置、存储介质 | |
CN105893391A (zh) | 智能应答方法、装置、系统及电子设备 | |
US20190303384A1 (en) | Method and system for consolidating data retrieved from different sources | |
CN111899821A (zh) | 处理医疗机构数据的方法、构建数据库的方法和装置 | |
WO2020076179A1 (ru) | Способ определения тегов для отелей и устройство для его осуществления | |
KR100725520B1 (ko) | 문자입력횟수 적응 다중 입력창을 이용한 검색방법 및 그장치 | |
EP1524611A2 (en) | System and method for providing information to a user | |
CN114090735A (zh) | 一种文本匹配方法、装置、设备及存储介质 | |
US20180260473A1 (en) | Full text retrieving and matching method and system based on lucene custom lexicon | |
CN113326363A (zh) | 搜索方法及装置、预测模型训练方法及装置、电子设备 | |
CN112100216A (zh) | 创意关键词的处理方法和装置 | |
CN111767365A (zh) | 文档检索设备及方法 | |
JP2018005633A (ja) | 関連コンテンツ抽出装置、関連コンテンツ抽出方法及び関連コンテンツ抽出プログラム | |
CN116108181A (zh) | 客户信息的处理方法、装置及电子设备 | |
CN110413770A (zh) | 将群消息归类到群话题的方法及装置 | |
CN111177585A (zh) | 地图poi反馈方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |