CN101021856A - 分布式语音检索系统 - Google Patents

分布式语音检索系统 Download PDF

Info

Publication number
CN101021856A
CN101021856A CN 200610140833 CN200610140833A CN101021856A CN 101021856 A CN101021856 A CN 101021856A CN 200610140833 CN200610140833 CN 200610140833 CN 200610140833 A CN200610140833 A CN 200610140833A CN 101021856 A CN101021856 A CN 101021856A
Authority
CN
China
Prior art keywords
storing process
searching system
lattice
field
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN 200610140833
Other languages
English (en)
Other versions
CN101021856B (zh
Inventor
苏磊
江南
鲍东山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Nufront Software Technology Co., Ltd.
Original Assignee
鲍东山
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 鲍东山 filed Critical 鲍东山
Priority to CN2006101408333A priority Critical patent/CN101021856B/zh
Publication of CN101021856A publication Critical patent/CN101021856A/zh
Application granted granted Critical
Publication of CN101021856B publication Critical patent/CN101021856B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明提供一种分布式语音检索系统,该系统包括一个语音缓存检索服务器,用于对热点语音信息进行保存、检索和维护。一个语音最优化检索服务器,用于对拼音图中后验概率最高的语音字符串进行保存、检索。一个语音拼音图检索服务器,用于对视频节目对应的语音拼音图进行保存、检索和维护。一个用于缓存条目生成、更新和替换的程序包。一组对外的查询和录入接口。

Description

分布式语音检索系统
技术领域
本发明涉及基于内容的语音检索领域。包括语音特征数据的组织、存储,索引、检索以及分布式检索等领域的技术。
背景技术
一个信息检索系统通常包括一个核心的检索数据库,一个搜索调度服务器和服务器组。对外则提供搜索和信息录入的接口。如图1所示。
其中,信息录入大多是依靠人工键入的方式。即由系统中检索内容的提供方把提供给用户的、用于搜索的内容信息通过检索系统的信息录入接口录入到数据库中。
核心数据库系统则主要负责存储供用户检索之用的信息数据。
搜索调度服务器负责接收、解析用户的请求,将其搜索请求分配给检索服务器,以执行实际检索。在检索结果返回到搜索调度服务器后,搜索调度服务器要对返回结果进行处理,如排序、合并、筛选等。处理之后将其返回给用户。完成一次搜索。
与普通的信息检索系统不同,语音搜索系统较为复杂,包含的模块也相对较多。
一个音频搜索系统由语音特征分析、特征数据存储、搜索调度和基于内容的语音检索等几大模块组成。其中,特征数据的存储、搜索调度和语音检索是此类搜索引擎的核心模块。如图2所示。
传统的语音检索系统要通过人工听写语音内容,将其以文字的形式记录在计算机上,并将这些信息存放在数据库中供此后的查询之用。也就是说,语音分析模块实际是一个由人手工完成的工作模块。
这种方式带有很大的局限性。人工的注释不但耗费大量的人力和时间,往往因为语音数据量庞大而使人工处理变得不可行。
为此,人们将语音分析技术用于语音处理,以计算机为主要工具,自动化的得到与语音内容相关的特征信息,为基于内容的搜索提供了支持。
在这样的系统中,要用计算机对视频节目中出现的人的语音、背景音乐等进行处理,将其转换成字符串或具有一定含义的数学形式。
通常是将语音信息转化成一个拼音图。通过对拼音图执行搜索,可以得到这段语音中可能出现了那些词语,这些词语出现的概率有多大。拼音串被用来作为搜索拼音图的搜索条件。
对于音乐,也可以通过对其波形特征的分析,得到音乐的旋律。
经过以上手段处理后得到的数据被称为语音的特征数据。特征数据的数量往往是非常庞大的。如,一个30分钟左右的语音在转化成拼音图一类的特征数据结构后,往往需要几兆的空间保存。即存在500个以上拼音图,这还只是精度一般的情况下。
因此,在进行基于内容的语音检索时,往往面临着数据量庞大,检索效率低下的问题。必须设法解决。或者较少特征数据的数据量,或者采取特别方式缩小检索范围以提高检索速度。
同时,基于内容的语音检索还存在无法准确匹配的问题。检索条件和数据库系统中存放的特征数据往往不是百分之百的匹配的。例如,即使同一句话,不同的人说出来也会有不同的听觉效果,在计算机对不同人所说的同一句话进行语音分析时,也会得到不同的分析结果。这些分析结果虽然不同,但“大体上”是符合的,他们表达的是同一句话,匹配程度虽不是百分之百,但也在一定的门限以上。因此,针对特征向量的检索应该执行模糊匹配策略。需要适当的检索和搜索策略来寻找能满足条件的结果,并得到模糊匹配的程度。
目前,在语音分析领域已经有了令人振奋的研究成果,分析方法也比较成熟,分析的精度已经达到了一定的程度。但是,在国内目前尚很少将该领域的研究成果应用在实际的产品中。至于将上述领域的研究成果相结合,为基于内容的语音检索服务,更是没有先例。
发明内容
本发明的目的在于实现一个可以基于语音内容信息进行语音检索的系统。系统组织成一个检索集群,以保证检索速度。分布式语音检索系统,包括:
一个语音缓存检索服务器,用于对检索次数最多的热点语音信息进行保存、检索和维护;
一个语音最优化检索服务器,用于对拼音图中后验概率最高的语音字符串进行保存、检索;
一个语音拼音图检索服务器,用于对视频节目对应的语音拼音图进行保存、检索和维护;
一个用于语音缓存数据库中热点语音信息缓存条目(以后简称缓存条目)生成、更新和替换的程序包。
-所述的语音缓存检索服务器,包括一个用于保存缓存条目的数据库表,一个用于保存缓存访问记录的临时表,一个用于保存未检索到的关键词队列的表,一个用于检索缓存内容的存储过程,一个检索关键词的索引,一个用于更新缓存条目访问频率的后台作业,一个用于将缓存中检索不到的关键词插入处理队列的存储过程。
-所述的缓存条目数据库表,包括条目ID字段,关键词字段,表示关键词出现位置的嵌套表字段,条目创建时间字段、条目被检索次数字段。
-所述的关键词出现位置的嵌套表,包括位置ID,所属节目ID,场景开始时间,场景结束时间,镜头开始时间,镜头结束时间,语音开始时间,语音结束时间,后验概率。
-所述的缓存访问记录的临时表,包括记录ID字段,被访问的缓存条目ID字段。
-所述的未检索到关键词队列表,包括关键词ID字段,关键词字段。
-所述的用于检索缓存内容的存储过程,包括逻辑关系表达式生成的程序模块,检索程序模块和将此次检索操作记录到缓存访问记录临时表的程序模块。
-所述的用于更新缓存条目访问频率的后台作业,包括一个作业调度器,一个从访问记录表中取出记录并更新缓存条目访问频率的存储过程。
-所述的将缓存中检索不到的关键词插入处理队列的存储过程,包括一个用于生成队列ID的序列,检查要插入的关键词是否已经存在于队列中的程序模块和用于实际插入的程序模块。
-所述的语音最优化检索服务器,包括一个存储语音最优拼音串XML文件的数据库表,一个用于存储服务器相关配置信息的表,一个读取配置信息的存储过程,一个用于录入XML文件的存储过程,一个用于检索最优数据库的存储过程,一个XML的分段索引。
-所述的存储语音最优拼音串XML文件的数据库表,包括一个节目ID字段,XML文件名字段和XML文件字段。
-所述的服务器相关配置信息的表,包括一个参数ID字段,参数名字段和参数值字段。
-所述的语音拼音图检索服务器,其中包括一个用来存储拼音图XML文件的数据库表,一个用于存储服务器相关配置信息的表,一个读取配置信息的存储过程,一个用于检索全部XML的程序包,一个用于检索指定XML的程序包,一个用于从XML文件中提取拼音图的程序包,一个用于向数据库录入XML文件的存储过程。
-所述的拼音图数据库表,包括一个节目ID字段,XML文件名字段和XML文件字段。
-所述的服务器配置信息表,包括一个参数ID字段,参数名字段和参数值字段。
-所述的用于检索全部XML的程序包,包括一个检索主存储过程,一个用于搜索指定拼音图文件的动态链接库DLL。
-所述的用于检索指定XML的程序包,包括一个检索主存储过程,一个用于搜索指定拼音图文件的动态链接库DLL。
-所述的用于从XML文件中提取拼音图的程序包,包括一个读取XML文件的存储过程,一个用于将提取的拼音图写成图文件的动态链接库DLL,一个用于删除无效文件的动态链接库DLL。
-所述的用于缓存条目生成、更新和替换的程序包,包括一个访问缓存数据库的远程连接,一个用于处理语音缓存中未检索到的关键词的后台作业,一个用于在新XML文件录入数据库时更新缓存表的程序包。一个用于缓存条目替换的程序包。
-所述的用于处理语音缓存中未检索到的关键词的后台作业,包括一个作业调度器,一个用于检索缓存队列中信息的程序段,一个用于按指定关键词搜索全部XML文件的存储过程,一个用于将搜索到的内容写入缓存的程序包。
-所述的用于按指定关键词搜索全部XML文件的存储过程:
create or replace procedure QueryAllXML(keywd in varchar2,
                                             res    out nocopy SYS_REFCURSOR)is
begin
  open res for
    select t1.pid,
              extractValue(value(t2),′/LATTICE/@SC_START′),
              extractValue(value(t2),′/LATTICE/@SC_END′),
              extractValue(value(t2),′/LATTICE/@SHT_START′),
              extractValue(value(t2),′/LATTICE/@SHT_END′),
              extractValue(value(t2),′/LATTICE/@START′),
              extractValue(value(t2),′/LATTICE/@END′),
              GetProb(t1.pid,
                       extractValue(value(t2),′/LATTICE/@LATTICE_ID′),
                       keywd)prob
         from voices t1,
              table(XMLSequence(extract(t1.xmlfile,
                                ′/AUDIO_INDEX_DOCUMENT/LATTICE_LIST/LATTICE′)))t2
        order by prob desc;
  end QueryAllXML;
  create or replace function GetProb(curid in pls_integer,
                                              lid    in varchar2,
                                              keywd in varchar2)return number is
    filename varchar2(200):=′/export/home/oracle/XMLFile/′‖curid‖′/′‖lid‖
                                   ′.lat′;
  begin
    return GraphAlgorithm(filename,keywd);
  end GetProb;
  create or replace function GraphAlgorithm(filename in varchar2,
                                                     keywd      in varchar2)
    return double precision is
    LANGUAGE C NAME″Search″
    LIBRARY SEARCHLIB
    PARAMETERS(filename STRING,keywd STRING,return DOUBLE);
-所述的用于将搜索到的内容写入缓存的程序包,包括一个生成缓存条目的存储过程,一个添加某缓存条目关键词出现位置的存储过程,一个删除无效关键词条目的存储过程。
-所述的用于在新XML文件录入数据库时更新缓存表的程序包,包括一个获取缓存表中所有关键词的存储过程,一个搜索指定XML文件的存储过程,一个用于将搜索到的内容写入缓存的程序包。
-所述的搜索指定XML文件的存储过程,
create or replace procedure QueryByPid(targetid in integer,
                                                keywd       in varchar2,
                                                res       out nocopy SYS_REFCURSOR)is
begin
  open res for
    select extractValue(value(t2),′/LATTICE/@SC_START′),
             extractValue(value(t2),′/LATTICE/@SC_END′),
             extractValue(value(t2),′/LATTICE/@SHT_START′),
             extractValue(value(t2),′/LATTICE/@SHT_END′),
             extractValue(value(t2),′/LATTICE/@START′),
             extractValue(value(t2),′/LATTICE/@END′),
             GetProb(targetid,
                      extractValue(value(t2),′/LATTICE/@LATTICE_ID′),
                      keywd)prob
      from voices t1,
             table(XMLSequence(extract(t1.xmlfile,
                              ′/AUDIO INDEX DOCUMENT/LATTICE_LIST/LATTICE′)))t2
     where t1.pid=targetid
     order by prob desc;
end QueryByPid;
create or replace function GetProb(curid in pls_integer,
                                            lid   in varchar2,
                                            keywd in varchar2)return number is
  filename varchar2(200):=′/export/home/oracle/XMLFile/′‖curid‖′/′‖lid‖
                                 ′.lat′;
begin
  return GraphAlgorithm(filename,keywd);
end GetProb;
create or replace function GraphAlgorithm(filename in varchar2,
                                                   keywd      in varchar2)
  return double precision is
  LANGUAGE C NAME″Search″
  LIBRARY SEARCHLIB
  PARAMETERS(filename STRING,keywd STRING,return DOUBLE);
-所述的用于将搜索到的内容写入缓存的程序包,包括一个添加某缓存条目关键词出现位置的存储过程,一个删除无效关键词条目的存储过程。
-所述的用于缓存条目替换的程序包,包括一个用于计算缓存条目评分的存储过程,一个用于选择被替换条目的存储过程,一个用于执行替换操作的存储过程。
这套系统提供以下检索功能:
1.基于用户在线语音的检索。
系统用户使用麦克风在线的口述一个或多个检索关键词。在客户端,计算机软件将对用户的语音做简单的分析,将其语音信号转换成检索系统需要的形式,然后交给检索系统执行实际检索。
检索系统在得到上述检索条件后,将对语音检索集群进行检索。找到与之匹配程度达到一定门限的语音片段,并将这些语音片段所在的视频节目片段返回给用户。
2.基于一个语音片段的检索。
系统用户给出一段语音文件,如wav格式,其中的内容是一段语音。计算机软件将对用户给出的语音文件做简单的分析,将其语音信号转换成检索系统需要的形式,然后交给检索系统执行实际检索。
检索系统在得到上述检索条件后,将对语音检索集群进行检索。找到与之匹配程度达到一定门限的语音片段,并将这些语音片段所在的视频节目片段返回给用户。
考虑到语音特征数据量的庞大和检索的精确度,将语音检索系统设计成一个分布式的检索集群。采用高速缓存策略提高检索的速度。
附图说明
附图1为普通信息检索系统结构图
附图2为基于内容的语音检索系统模块图
附图3为基于内容的语音检索系统结构图
附图4为基于内容的语音检索流程图
具体实施方式
该系统的结构图如附图3所示。系统分为如下几个模块。模块间的合作关系如图4所示。
1.语音缓存检索服务器;
语音缓存检索服务器负责检索语音缓存,并更新缓存内关键词被访问的次数。
语音缓存中存放的是被用户使用次数最多的关键词。
初始,语音缓存中是空的。
当用户发出检索请求后,首先执行对语音缓存的检索。如果缓存中某些条目的关键词字段与用户的检索条件关键词匹配,则将这些条目返回给用户,并更新这些条目的访问次数字段。
如果语音缓存内没有与用户检索条件关键词匹配的条目,则要检索语音最优化数据库。同时,把这个在缓存中检索不到的关键词插入到队列表中。
2.语音最优化检索服务器;
语音最优化检索服务器的数据库中存放的是最优拼音字符串。
在对一个语音文件进行分析后,会得到对应于各段语音的拼音图。然后,对拼音图执行图搜索算法,得到后验概率最高的若干拼音串,并将它们保存在XML文件中录入语音最优化数据库。
当无法从语音缓存中检索到用户给出的关键词时,要检索语音最优化数据库。如果仍然得不到检索结果,则此次检索失败。
为了提高语音最优化检索的速度,要对此处存放的XML文档进行索引。只对XML中最有价值的部分,即拼音串部分,进行索引。使用XML的分段索引。
3.语音拼音图检索服务器;
语音拼音图检索服务器的数据库中存放的是语音文件的拼音图信息。
语音拼音图是对一段语音信息最全面的记录。但是,信息完整的代价就是大量的存储空间和低下的搜索效率。
如果在数据库中保存拼音图的信息(图的节点和弧的信息),当需要检索一个拼音图时,再从数据库中读取这些信息交给外部的图搜索算法,则大量的时间都被浪费在了数据库读取数据和外部算法解析数据的操作上。
为此,在拼音图XML文档录入数据库时,就将其中的拼音图信息提取出来,保存在一些外部文件中。此后,在需要搜索拼音图时,数据库的检索程序只需给出目标拼音图的出现位置(在哪个节目内的什么时间位置),然后根据这些位置确定存储相应的拼音图的文件的名字,再把这个文件名告知外部图搜索程序,图搜索程序直接去使用那个文件即可。
这样,拼音图的读取操作放在了离线状态下完成,大大减少了在线操作所需的时间。
4.语音缓存条目的添加;
语音拼音图检索服务器还运行一个后台作业。该作业每隔10分钟调度一次。
作业首先远程访问语音缓存检索服务器上的队列表(这里存放有用户给出的但目前缓存中不存在的关键词),从队列表中取出所有关键词,并在语音拼音图数据库中检索这些关键词,将检索到的结果(即关键词出现在哪个节目、所属场景的开始和结束时间、所属镜头的开始和结束时间、关键词所在语音段本身的开始和结束时间和匹配概率)添加到缓存数据库中。最后,删除队列表中的相应关键词条目。
通过上面的步骤,检索集群就离线的对用户给出的但缓存中不存在的关键词进行了全面的拼音图搜索。当此后该关键词再次被检索时,语音缓存就可以返回大量的优质的结果。
5.语音缓存的更新
当有新的语音节目被添加时,也就是新的XML文件录入数据库时,语音拼音图检索服务器还将启动一个更新操作。该操作首先远程访问语音缓存数据库中的缓存表,得到缓存表中所有的关键词,并以这些关键词为检索条件对新录入的语音节目所对应的所有拼音图执行搜索。将搜索到的结果即关键词出现在哪个节目、所属场景的开始和结束时间、所属镜头的开始和结束时间、关键词所在语音段本身的开始和结束时间和匹配概率更新到语音缓存数据库中。通过上面的操作,缓存中关键词的出现位置信息就可以保持最新。
由于拼音图的搜索算法相对较为复杂,不能在数据库的存储过程中实现,因此使用外部高级语言程序实现拼音图搜索算法,并将其转换成动态链接库。该动态链接库中的核心搜索算法将与数据库中的函数绑定,这样,数据库内的检索程序就可以调用外部的拼音图搜索算法,使得二者可以协同工作,完成检索。

Claims (26)

1.一个分布式语音检索系统,其特征在于:包括:
一个语音缓存检索服务器,用于对检索次数最多的热点语音信息进行保存、检索和维护;
一个语音最优化检索服务器,用于对拼音图中后验概率最高的语音字符串进行保存、检索;
一个语音拼音图检索服务器,用于对视频节目对应的语音拼音图进行保存、检索和维护;
一个用于语音缓存数据库中热点语音信息缓存条目(以后简称缓存条目)生成、更新和替换的程序包。
2.如权利要求1所述的分布式语音检索系统,其特征在于:语音缓存检索服务器,包括一个用于保存缓存条目的数据库表,一个用于保存缓存访问记录的临时表,一个用于保存未检索到的关键词队列的表,一个用于检索缓存内容的存储过程,一个检索关键词的索引,一个用于更新缓存条目访问频率的后台作业,一个用于将缓存中检索不到的关键词插入处理队列的存储过程。
3.如权利要求2所述的分布式语音检索系统,其特征在于:缓存条目数据库表,包括条目ID字段,关键词字段,表示关键词出现位置的嵌套表字段,条目创建时间字段、条目被检索次数字段。
4.如权利要求3所述的分布式语音检索系统,其特征在于:关键词出现位置的嵌套表,包括位置ID,所属节目ID,场景开始时间,场景结束时间,镜头开始时间,镜头结束时间,语音开始时间,语音结束时间,后验概率。
5.如权利要求2所述的分布式语音检索系统,其特征在于:缓存访问记录的临时表,包括记录ID字段,被访问的缓存条目ID字段。
6.如权利要求2所述的分布式语音检索系统,其特征在于:未检索到关键词队列表,包括关键词ID字段,关键词字段。
7.如权利要求2所述的分布式语音检索系统,其特征在于:用于检索缓存内容的存储过程,包括逻辑关系表达式生成的程序模块,检索程序模块和将此次检索操作记录到缓存访问记录临时表的程序模块。
8.如权利要求2所述的分布式语音检索系统,其特征在于:用于更新缓存条目访问频率的后台作业,包括一个作业调度器,一个从访问记录表中取出记录并更新缓存条目访问频率的存储过程。
9.如权利要求2所述的分布式语音检索系统,其特征在于:将缓存中检索不到的关键词插入处理队列的存储过程,包括一个用于生成队列ID的序列,检查要插入的关键词是否已经存在于队列中的程序模块和用于实际插入的程序模块。
10.如权利要求1所述的分布式语音检索系统,其特征在于:语音最优化检索服务器,包括一个存储语音最优拼音串XML文件的数据库表,一个用于存储服务器相关配置信息的表,一个读取配置信息的存储过程,一个用于录入XML文件的存储过程,一个用于检索最优数据库的存储过程,一个XML的分段索引。
11.如权利要求10所述的分布式语音检索系统,其特征在于:存储语音最优拼音串XML文件的数据库表,包括一个节目ID字段,XML文件名字段和XML文件字段。
12.如权利要求10所述的分布式语音检索系统,其特征在于:服务器相关配置信息的表,包括一个参数ID字段,参数名字段和参数值字段。
13.如权利要求1所述的分布式语音检索系统,其特征在于:语音拼音图检索服务器,其中包括一个用来存储拼音图XML文件的数据库表,一个用于存储服务器相关配置信息的表,一个读取配置信息的存储过程,一个用于检索全部XML的程序包,一个用于检索指定XML的程序包,一个用于从XML文件中提取拼音图的程序包,一个用于向数据库录入XML文件的存储过程。
14.如权利要求13所述的分布式语音检索系统,其特征在于:拼音图数据库表,包括一个节目ID字段,XML文件名字段和XML文件字段。
15.如权利要求13所述的分布式语音检索系统,其特征在于:服务器配置信息表,包括一个参数ID字段,参数名字段和参数值字段。
16.如权利要求13所述的分布式语音检索系统,其特征在于:用于检索全部XML的程序包,包括一个检索主存储过程,一个用于搜索指定拼音图文件的动态链接库DLL。
17.如权利要求13所述的分布式语音检索系统,其特征在于:用于检索指定XML的程序包,包括一个检索主存储过程,一个用于搜索指定拼音图文件的动态链接库DLL。
18.如权利要求13所述的分布式语音检索系统,其特征在于:用于从XML文件中提取拼音图的程序包,包括一个读取XML文件的存储过程,一个用于将提取的拼音图写成图文件的动态链接库DLL,一个用于删除无效文件的动态链接库DLL。
19.如权利要求1所述的分布式语音检索系统,其特征在于:用于缓存条目生成、更新和替换的程序包,包括一个访问缓存数据库的远程连接,一个用于处理语音缓存中未检索到的关键词的后台作业,一个用于在新XML文件录入数据库时更新缓存表的程序包。一个用于缓存条目替换的程序包。
20.如权利要求19所述的分布式语音检索系统,其特征在于:用于处理语音缓存中未检索到的关键词的后台作业,包括一个作业调度器,一个用于检索缓存队列中信息的程序段,一个用于按指定关键词搜索全部XML文件的存储过程,一个用于将搜索到的内容写入缓存的程序包。
21.如权利要求20所述的分布式语音检索系统,其特征在于:用于按指定关键词搜索全部XML文件的存储过程
create orreplace procedure QueryAllXML(keywd in varchar2,
                                            res out nocopy SYS_REFCURSOR)is
begin
  open res for
    select tl.pid,
              extractValue(value(t2),′/LATTICE/@SC_START′),
              extractValue(value(t2),′/LATTICE/@SC_END′),
              extractValue(value(t2),′/LATTICE/@SHT_START′),
              extractValue(value(t2),′/LATTICE/@SHT_END′),
              extractValue(value(t2),′/LATTICE/@START′),
              extractValue(value(t2),′/LATTICE/@END′),
              GetProb(tl.pid,
                       extractValue(value(t2),′/LATTICE/@LATTICE_ID′),
                       keywd)prob
       from voices tl,
            table(XMLSequence(extract(tl.xmlfile,
                             ′/AUDIO_INDEX_DOCUMENT/LATTICE_LIST/LATTICE′)))t2
       order by prob desc;
 end QueryAllXML;
 create or replace function GetProb(curid in pls_integer,
                                             lid in varchar2,
                                             keyvd in varchar2)return number is
    filename varchar2(200):=′/export/home/oracle/XMLFile/′‖curid‖′/′‖lid‖
                                    ′.lat′;
 begin
   return GraphAlgorithm(filename,keywd);
 end GetProb;
 create or replace function GraphAlgorithm(filename in varchar2,
                                                    keywd    in varchar2)
   return double precision is
   LANGUAGE C NAME″Search″
   LIBRARY SEARCHLIB
   PARAMETERS(filename STRIN G,keywd STRING,return DOUBLE);
22.如权利要求20所述的分布式语音检索系统,其特征在于:用于将搜索到的内容写入缓存的程序包,包括一个生成缓存条目的存储过程,一个添加某缓存条目关键词出现位置的存储过程,一个删除无效关键词条目的存储过程。
23.如权利要求19所述的分布式语音检索系统,其特征在于:用于在新XML文件录入数据库时更新缓存表的程序包,包括一个获取缓存表中所有关键词的存储过程,一个搜索指定XML文件的存储过程,一个用于将搜索到的内容写入缓存的程序包。
24.如权利要求23所述的分布式语音检索系统,其特征在于:搜索指定XML文件的存储过程,
create or replace procedure QueryByPid(targetid in integer,
                                               keywd  in varchar2,
                                               res    out nocopy SYS_REFCURSOR)is
begin
  open res for
    select extractValue(value(t2),′/LATTICE/@SC_START′),
             extractValue(value(t2),′/LATTICE/@SC_END′),
             extractValue(value(t2),′/LATTICE/@SHT_START′),
             extractValue(value(t2),′/LATTICE/@SHT_END′),
             extractValue(value(t2),′/LATTICE/@START′),
             extractValue(value(t2),′/LATTICE/@END′),
             GetProb(targetid,
                      extractValue(value(t2),′/LATTICE/@LATTICE_ID′),
                      keywd)prob
      from voices tl,
           table(XMLSequence(extract(tI.xmlfile,
                            ′/AUDIO_INDEX_DOCUMENT/LATTICE_LIST/LATTICE′)))t2
     where tl.pid=targetid
     order by prob desc;
end QueryByPid;
create or replace function GetProb(curid in pls_integer,
                                            lid  in varchar2,
                                            keywd in varchar2)return number is
   filename varchar2(200):=′/export/home/oracle/XMLFile/′‖curid‖′/′‖lid‖
                                   ′.lat′;
begin
  return GraphAlgorithm(filename,keywd);
end GetProb;
create or replace function GraphAlgorithm(filename in varchar2,
                                                   keywd    in varchar2)
retum double precision is
LANGUAGE C NAME″Search″
LIBRARY SEARCHLIB
PARAMETERS(filename STRING,keywd STRING,return DOUBLE);
25.如权利要求23所述的分布式语音检索系统,其特征在于:用于将搜索到的内容写入缓存的程序包,包括一个添加某缓存条目关键词出现位置的存储过程,一个删除无效关键词条目的存储过程。
26.如权利要求19所述的分布式语音检索系统,其特征在于:用于缓存条目替换的程序包,包括一个用于计算缓存条目评分的存储过程,一个用于选择被替换条目的存储过程,一个用于执行替换操作的存储过程。
CN2006101408333A 2006-10-11 2006-10-11 分布式语音检索系统 Expired - Fee Related CN101021856B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2006101408333A CN101021856B (zh) 2006-10-11 2006-10-11 分布式语音检索系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2006101408333A CN101021856B (zh) 2006-10-11 2006-10-11 分布式语音检索系统

Publications (2)

Publication Number Publication Date
CN101021856A true CN101021856A (zh) 2007-08-22
CN101021856B CN101021856B (zh) 2010-10-27

Family

ID=38709624

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2006101408333A Expired - Fee Related CN101021856B (zh) 2006-10-11 2006-10-11 分布式语音检索系统

Country Status (1)

Country Link
CN (1) CN101021856B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103077713A (zh) * 2012-12-25 2013-05-01 青岛海信电器股份有限公司 一种语音处理方法及装置
CN104346401A (zh) * 2013-08-08 2015-02-11 中国电信股份有限公司 云管理平台中各组件间消息转发的方法与装置
CN105025051A (zh) * 2014-04-24 2015-11-04 深圳市赛格导航科技股份有限公司 一种云端语音服务提供方法和系统
CN105426421A (zh) * 2015-11-03 2016-03-23 武汉地大信息工程股份有限公司 一种时态监测数据快速可视化方法及系统
CN105551485A (zh) * 2015-11-30 2016-05-04 讯飞智元信息科技有限公司 语音文件检索方法及系统
CN106021615A (zh) * 2016-07-01 2016-10-12 广东小天才科技有限公司 题目搜索优化方法及装置
CN106354433A (zh) * 2016-08-30 2017-01-25 北京航空航天大学 分布式内存存储系统的热点数据挖掘方法及装置
CN106897280A (zh) * 2015-12-17 2017-06-27 阿里巴巴集团控股有限公司 数据查询方法及装置
CN107111621A (zh) * 2014-10-10 2017-08-29 歌乐株式会社 检索系统
CN108255848A (zh) * 2016-12-29 2018-07-06 阿里巴巴集团控股有限公司 实现条件更新的方法、设备及系统
WO2021227060A1 (zh) * 2020-05-15 2021-11-18 深圳市世强元件网络有限公司 一种用于关键词搜索的多节点分词系统及方法
CN115808039A (zh) * 2021-09-14 2023-03-17 海信集团控股股份有限公司 一种冰箱、冰箱控制方法、装置、设备及介质

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103077713A (zh) * 2012-12-25 2013-05-01 青岛海信电器股份有限公司 一种语音处理方法及装置
CN103077713B (zh) * 2012-12-25 2019-02-01 青岛海信电器股份有限公司 一种语音处理方法及装置
CN104346401A (zh) * 2013-08-08 2015-02-11 中国电信股份有限公司 云管理平台中各组件间消息转发的方法与装置
CN104346401B (zh) * 2013-08-08 2018-02-16 中国电信股份有限公司 云管理平台中各组件间消息转发的方法与装置
CN105025051A (zh) * 2014-04-24 2015-11-04 深圳市赛格导航科技股份有限公司 一种云端语音服务提供方法和系统
CN107111621A (zh) * 2014-10-10 2017-08-29 歌乐株式会社 检索系统
CN105426421A (zh) * 2015-11-03 2016-03-23 武汉地大信息工程股份有限公司 一种时态监测数据快速可视化方法及系统
CN105551485A (zh) * 2015-11-30 2016-05-04 讯飞智元信息科技有限公司 语音文件检索方法及系统
CN106897280A (zh) * 2015-12-17 2017-06-27 阿里巴巴集团控股有限公司 数据查询方法及装置
CN106897280B (zh) * 2015-12-17 2020-07-14 菜鸟智能物流控股有限公司 数据查询方法及装置
CN106021615A (zh) * 2016-07-01 2016-10-12 广东小天才科技有限公司 题目搜索优化方法及装置
CN106354433A (zh) * 2016-08-30 2017-01-25 北京航空航天大学 分布式内存存储系统的热点数据挖掘方法及装置
CN106354433B (zh) * 2016-08-30 2019-09-10 北京航空航天大学 分布式内存存储系统的热点数据挖掘方法及装置
CN108255848A (zh) * 2016-12-29 2018-07-06 阿里巴巴集团控股有限公司 实现条件更新的方法、设备及系统
CN108255848B (zh) * 2016-12-29 2022-06-24 阿里巴巴集团控股有限公司 实现条件更新的方法、设备及系统
WO2021227060A1 (zh) * 2020-05-15 2021-11-18 深圳市世强元件网络有限公司 一种用于关键词搜索的多节点分词系统及方法
CN115808039A (zh) * 2021-09-14 2023-03-17 海信集团控股股份有限公司 一种冰箱、冰箱控制方法、装置、设备及介质

Also Published As

Publication number Publication date
CN101021856B (zh) 2010-10-27

Similar Documents

Publication Publication Date Title
CN101021856B (zh) 分布式语音检索系统
CN101021855B (zh) 基于内容的视频检索系统
Larson et al. Spoken content retrieval: A survey of techniques and technologies
CN109829104B (zh) 基于语义相似度的伪相关反馈模型信息检索方法及系统
US9824150B2 (en) Systems and methods for providing information discovery and retrieval
CN100423004C (zh) 基于内容的视频搜索调度系统
KR101255405B1 (ko) 텍스트 메타데이터를 갖는 음성문서의 인덱싱 및 검색방법, 컴퓨터 판독가능 매체
CN101512521B (zh) 基于概念对语音文档的跨媒体索引和检索
CN101819597B (zh) 存储设备和记录介质
US20070106405A1 (en) Method and system to provide reference data for identification of digital content
CN101405728B (zh) 具有动态加载能力的关系数据库架构
CN1269897A (zh) 用于选择数据集的方法和/或系统
CN103186607A (zh) 分布式语音检索系统
CN101136027B (zh) 用于数据库索引、搜索和数据检索的系统和方法
JP2006004274A (ja) 対話処理装置、対話処理方法及び対話処理プログラム
CN1965319A (zh) 信息检索装置、输入辅助装置、方法及程序
CN100458784C (zh) 在数字图书馆中所采用的检索系统和检索方法
CN102207948A (zh) 一种事件陈述句素材库的生成方法
CN101645087A (zh) 一种分类词库系统及其更新和维护方法、以及客户端
CN1584884A (zh) 检索结构化文档的数据的设备和方法
Zadel et al. Web Services for Music Information Retrieval.
US20060253433A1 (en) Method and apparatus for knowledge-based music searching and method and apparatus for managing music file
CN109815311B (zh) 一种可识别普通书籍的点读方法及系统
De Valk et al. MIRchiving: Challenges and opportunities of connecting MIR research and digital music archives
CN101937450B (zh) 在由粒子表示的信息检索数据库中进行条目检索的方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Owner name: BEIJING NUFRONT NETWORK TECHNOLOGY CO., LTD.

Free format text: FORMER OWNER: BAO DONGSHAN

Effective date: 20071228

C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20071228

Address after: A, building 16, building 1, building 8, Qinghua science park, No. 100084, Zhongguancun East Road, Beijing, Haidian District, China

Applicant after: Beijing Nufront Software Technology Co., Ltd.

Address before: A, building 16, building 1, building 8, Qinghua science park, No. 100084, Zhongguancun East Road, Beijing, Haidian District, China

Applicant before: Bao Dongshan

C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20101027

Termination date: 20131011